作者 | Tina、褚杏娟
2 月 16 日,OpenAI 在其官網發布文生視頻模型 Sora。據介紹,該模型可以生成長達一分鐘的視頻,同時保持視覺品質並遵循用戶提示。
Sora 在日語中意為天空,該技術背後的團隊包括 Tim Brooks 和 Bill Peebles,之所以選擇這個名字,是希望它能激起無限的創造潛力。
OpenAI 給出了不少令人印象深刻的例子:在龍年春節里的舞龍活動,人山人海的場景真假難辨,甚至還有群眾拿着手機跟拍的細節;動物世界中,站在樹上、戴着王冠的猴子等;在社交媒體上教大家做曲奇的老奶奶;戴着耳機聽音樂的兩隻金毛狗.....
有網友評論說,AI 能根據文字生成圖片的時候,他就在想離生成視頻的日期不遠了,沒想到這麼快!“又有一波‘固執的’從業者和藝術家們要失業了,從業者門檻進一步拉低!YouTube/TikTok 等一眾長視頻或短視頻網站估計要迎來一波新的流量。”
一些 YouTube 網紅確實開始擔心,MrBeast 發帖半開玩笑地求奧特曼不要讓他失業。
有投資者則發表評論說,他們早就認為“內容生成干不過大公司,初創公司要做產品和應用……”他們一直認為 Pika 應該轉型……
而 OpenAI 員工 will depue 則表示,他們過去兩個月一直忙於此事,目前 Sora 還處於早期宣傳階段。根據 OpenAI 隨後發布的論文來看,這個模型的能力確實已經超出了 OpenAI 最初所宣傳的。
這篇論文揭示了 Sora 架構的一些關鍵方面,比如它可以生成任意分辨率和寬高比的視頻(最高 1080p)。根據論文,Sora 能夠執行各種圖像和視頻編輯任務,比如創建循環視頻、延長視頻時長或更改現有視頻的背景。
將 DALL·E 2 或 DALL·E 3 生成的圖片轉為視頻
然而,最令人感興趣的是 Sora“模擬數字世界”的能力。它不僅僅是生成單個照片或視頻,而是確定環境中每個對象的物理特性,並根據這些計算渲染照片或視頻(或交互式 3D 世界,視情況而定)。正如 Nvidia 高級研究員 Jim Fan 所評論的那樣,Sora 更像是一個“數據驅動的物理引擎”,而不是一個創意引擎。
對於 Sora 目前存在的弱點,OpenAI 也不避諱:模型在準確模擬複雜場景的物理特性方面可能會遇到困難,也可能無法理解具體的因果關係實例。
例如“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數量會變化,一些憑空出現或消失。
現在,Sora 正面向部分成員開放,以評估關鍵領域的潛在危害或風險。
原文鏈接:https://www.infoq.cn/article/u3USgtmYw11CHkZRh7EO