生成式 AI 最大飛躍！OpenAI 首個視頻生成模型重磅發布

2024年02月18日15:15:04 科技 1513

作者 | Tina、褚杏娟

2 月 16 日，OpenAI 在其官網發布文生視頻模型 Sora。據介紹，該模型可以生成長達一分鐘的視頻，同時保持視覺品質並遵循用戶提示。

Sora 在日語中意為天空，該技術背後的團隊包括 Tim Brooks 和 Bill Peebles，之所以選擇這個名字，是希望它能激起無限的創造潛力。

OpenAI 給出了不少令人印象深刻的例子：在龍年春節里的舞龍活動，人山人海的場景真假難辨，甚至還有群眾拿着手機跟拍的細節；動物世界中，站在樹上、戴着王冠的猴子等；在社交媒體上教大家做曲奇的老奶奶；戴着耳機聽音樂的兩隻金毛狗.....

有網友評論說，AI 能根據文字生成圖片的時候，他就在想離生成視頻的日期不遠了，沒想到這麼快！“又有一波‘固執的’從業者和藝術家們要失業了，從業者門檻進一步拉低！YouTube/TikTok 等一眾長視頻或短視頻網站估計要迎來一波新的流量。”

一些 YouTube 網紅確實開始擔心，MrBeast 發帖半開玩笑地求奧特曼不要讓他失業。

有投資者則發表評論說，他們早就認為“內容生成干不過大公司，初創公司要做產品和應用……”他們一直認為 Pika 應該轉型……

而 OpenAI 員工 will depue 則表示，他們過去兩個月一直忙於此事，目前 Sora 還處於早期宣傳階段。根據 OpenAI 隨後發布的論文來看，這個模型的能力確實已經超出了 OpenAI 最初所宣傳的。

這篇論文揭示了 Sora 架構的一些關鍵方面，比如它可以生成任意分辨率和寬高比的視頻（最高 1080p）。根據論文，Sora 能夠執行各種圖像和視頻編輯任務，比如創建循環視頻、延長視頻時長或更改現有視頻的背景。

將 DALL·E 2 或 DALL·E 3 生成的圖片轉為視頻

然而，最令人感興趣的是 Sora“模擬數字世界”的能力。它不僅僅是生成單個照片或視頻，而是確定環境中每個對象的物理特性，並根據這些計算渲染照片或視頻（或交互式 3D 世界，視情況而定）。正如 Nvidia 高級研究員 Jim Fan 所評論的那樣，Sora 更像是一個“數據驅動的物理引擎”，而不是一個創意引擎。

對於 Sora 目前存在的弱點，OpenAI 也不避諱：模型在準確模擬複雜場景的物理特性方面可能會遇到困難，也可能無法理解具體的因果關係實例。