奧特曼再放大招!OpenAI公布首個文生視頻模型Sora,質量如何?

財聯社2月16日訊(編輯 唐葉天)北京時間今日凌晨,全球人工智慧模型領跑者openai推出了一款能根據文字指令即時生成短視頻的模型,命名為sora。此前在2023年轟轟烈烈的多模態ai模型競賽中,谷歌、meta和初創公司runway、pika labs都發布過類似的模型。但本次openai展示的視頻仍然以高質量獲得關注。目前openai官網上sora相關的信息有限,openai沒有給出訓練模型的素材來源,僅表示:「我們正在教ai理解和模擬運動中的物理世界,目的是訓練模型,幫助人們解決需要真實世界交互的問題。」並稱sora能夠從文本說明中生成長達60秒的視頻,並能夠提供具有多個角色,特定類型的動作和詳細的背景細節的場景。sora還能在一個生成的視頻中創建多個鏡頭,體現人物和視覺風格。此外,sora可以一次性生成整個視頻,也可以擴展生成的視頻,使其更長。openai表示:通過讓模型一次生成多幀畫面,我們解決了一個具有挑戰性的問題,即:即使生成的主體暫時離開視線內,也能確保主體不變

openai同時提示:當前的sora模型也有弱點。它可能難以準確模擬複雜場景中的物理現象,也可能無法理解具體的因果關係。例如,一個人可能會咬一口餅乾,但咬過之後,餅乾上可能就沒有咬痕了。該模型還可能混淆提示的空間細節,例如混淆左和右,並可能難以準確描述隨時間發生的事件,例如跟隨特定的攝像機軌跡。關於openai的ceo山姆·奧特曼一直呼籲的ai安全問題,openai表示「目前,sora已經開放向『紅隊人員』(對ai大模型潛在的有害輸出進行「紅隊測試」)以評估關鍵領域的危害或風險。我們還允許一些視覺藝術家、設計師和電影製作人訪問,以獲得關於如何改進模型的反饋意見,使其對創意專業人士最有幫助。」

sora生成視頻效果如何?

openai表示,sora建立在過去對dall-e和gpt模型的研究基礎之上。它採用了dall·e 3的技術,能夠在生成的視頻中更忠實地遵循用戶的文字說明。除了能夠文生視頻外,該模型還能根據現有的靜態圖像生成視頻,並能準確、細緻地對圖像內容進行動畫處理。該模型還能提取現有視頻,並對其進行擴展或填充缺失的幀。目前openai官網上已經更新了48個sora生成的視頻demo,色彩艷麗,效果逼真。

來自openai sora的ai生成視頻圖像:猛獁象在雪地中行走

以上截圖的視頻文字提示如下:幾頭巨大的長毛猛獁象踏著雪地走來,它們長長的毛髮隨風輕揚,遠處是白雪覆蓋的樹木和壯觀的雪山,午後的光線伴著飄渺的雲朵和遠處高懸的太陽,營造出溫暖的光暈,低機位拍攝的景象令人驚嘆,捕捉到了大型毛茸茸的哺乳動物,攝影和景深都非常漂亮。動態的光影表現也有印象深刻的案例,如一位女性在東京路燈的霓虹燈下行走的視頻,以及阿馬爾菲海岸教堂的鳥瞰圖,以及一個卡通怪物好奇地跪在融化的蠟燭前等。

來自openai sora的ai生成視頻圖像:一位女性在東京路燈的霓虹燈下行走

以上截圖的視頻文字提示如下:一位時尚女性走在東京的街道上,街道上到處都是溫暖的霓虹燈和動畫城市標誌。她身穿黑色皮夾克、紅色長裙和黑色靴子,手拿黑色錢包。她戴著太陽鏡,塗著紅色唇膏。她走起路來自信而隨意。街道潮濕而反光,與五顏六色的燈光形成鏡面效果。許多行人走來走去。

奧特曼在線接單

sora公布後,openaiceo山姆-奧特曼請社交媒體用戶在線發送文字提示的創意內容。如一位來自新罕布希爾州的自由攝影師在x上給出的提示:「由一位祖母級社交媒體博主進行的自製意式糰子烹飪指導課,場景設置在鄉村風格的托斯卡納鄉下廚房,並配有電影級燈光。」altman在約一小時後回復了一個逼真的視頻。

奧特曼此舉,對外展示了sora模型即時生成視頻的能力。

東吳證券觀點此前表示,近年視覺演算法在泛化性、可提示性、生成質量和穩定性等方面突破將推動技術拐點到來以及爆款應用出現。3d資產生成、視頻生成等領域受益於擴散演算法成熟,但數據與演算法難點多於圖像生成,考慮到llm對ai各領域的加速作用以及已出現較好的開源模型,2024年行業或取得更大的發展。

2023年末至2024年初,pika、heygen等ai文生視頻應用陸續出圈,驗證了多模態技術的不斷進步與成熟。剛剛公布的的sora模型無疑加劇了這一賽道的激烈競爭。

(財聯社 唐葉天)