來源:愛范兒
扎克伯格最近忙著在全世界「搶風頭」。
前不久,開啟「二次創業」的他剛向我們展示了十年磨一劍的最強 AR 眼鏡 Meta Orion,儘管這只是一款押注未來的原型機器,卻搶光了蘋果 Vision Pro 的風頭。
而在昨晚,Meta 在視頻生成模型賽道再次大出風頭。
Meta表示,為止最先進的「全新發布的 Meta Movie Gen是迄今不過,先打個預防針,Meta 官方目前尚未給出明確的開放時間表。媒體基礎模型(Media Foundation Models)」。
官方宣稱正在積極地與娛樂行業的專業人士和創作者進行溝通和合作,預計將在明年某個時候將其整合到 Meta 自己的產品和服務中。
簡單總結一下 Meta Movie Gen 的特點:
擁有個性化視頻生成、精確視頻編輯和音頻生成等功能。
支持生成 1080P、16 秒、每秒 16 幀的高清長視頻
能夠生成最長 45 秒的高質量和高保真音頻
輸入簡單文本,即可實現複雜的精確視頻編輯功能
演示效果優秀,但該產品預計明年才會正式向公眾開放
告別「啞劇」,功能主打大而全
細分來說,Movie Gen 具有視頻生成、個性化視頻生成、精確視頻編輯和音頻生成四大功能。
文生視頻功能早已成為視頻生成模型的標配,只是,Meta Movie Gen 能夠根據用戶的需求生成不同長寬比的高清視頻,這在業內尚屬首創。
Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.
Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.
此外,Meta Movie Gen 提供了高級的視頻編輯功能,用戶只需通過簡單的文本輸入即可實現複雜的視頻編輯任務。
從視頻的視覺風格,到視頻片段之間的過渡效果,再到更細緻的編輯操作,這一點,該模型也給足了自由。
在個性化視頻生成方面,Meta Movie Gen 也前邁進了一大步。
用戶可以通過上傳自己的圖片,利用 Meta Movie Gen 生成既個性化但又保持人物特徵和動作的視頻。
Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.
從孔明燈到透明彩色泡泡,一句話輕鬆替換視頻同一物體。
Text input: Transform the lantern into a bubble that soars into the air.
儘管今年陸續已有不少視頻模型相繼亮相,但大多只能生成「啞劇」,食之無味棄之可惜,Meta Movie Gen 也沒有「重蹈覆轍」。
用戶可以通過提供視頻文件或文本內容,讓 Meta Movie Gen 根據這些輸入生成相對應的音頻。
並且,它不僅可以創建單個的聲音效果,還可以創建背景音樂,甚至為整個視頻製作完整的配樂,從而極大地提升視頻的整體質量和觀眾的觀看體驗。
看完演示 demo 的Lex Fridman言簡意賅地表達了讚歎。
許多網友再次「拉踩」OpenAI 的期貨 Sora,但更多翹首以待的網友已經開始期待測試體驗資格的開放了。
Meta AI 首席科學家 Yann LeCun 也在線為 Meta Movie Gen 站台宣傳。
Meta 畫的大餅,值得期待
在推出 Meta Movie Gen 之時,Meta AI 研究團隊也同期公開了一份長達 92 頁的技術論文。
據介紹,Meta 的 AI 研究團隊主要使用兩個基礎模型來實現這些廣泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。
其中,Movie Gen Video 是一個 30B 參數的基礎模型,用於文本到視頻的生成,能夠生成高質量的高清視頻,最長可達 16 秒。
模型預訓練階段使用了大量的圖像和視頻數據,能夠理解視覺世界的各種概念,包括物體運動、交互、幾何、相機運動和物理規律。
為了提高視頻生成的質量,模型還進行了監督微調(SFT),使用了一小部分精心挑選的高質量視頻和文本標題。
報告顯示,後訓練(Post-training)過程則是 Movie Gen Video 模型訓練的重要階段,能夠進一步提高視頻生成的質量,尤其是針對圖像和視頻的個性化和編輯功能。
值得一提的是,研究團隊也將 Movie Gen Video 模型與主流視頻生成模型進行了對比。
由於 Sora 目前尚未開放,研究人員只能使用其公開發布的視頻和提示來進行比較。對於其他模型,如 Runway Gen3、LumaLabs 和 可靈 1.5,研究人員選擇通過 API 介面來自行生成視頻。
且由於 Sora 發布的視頻有不同的解析度和時長,研究人員對 Movie Gen Video 的視頻進行了裁剪,以確保比較時視頻具有相同的解析度和時長。
結果顯示,Movie Gen Video 整體評估效果上顯著優於 Runway Gen3 和 LumaLabs,對 OpenAI Sora 有輕微的優勢,與可靈 1.5 相當。
未來,Meta 還計劃公開發布多個基準測試,包括 Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,以加速視頻生成模型的研究。
而 Movie Gen Audio 模型則是一個 13B 參數的模型,用於視頻和文本到音頻的生成,能夠生成長達 45 秒的高質量和高保真的音頻,包括聲音效果和音樂,並與視頻同步。
該模型採用了基於 Flow Matching 的生成模型和擴散變換器(DiT)模型架構,並添加了額外的條件模塊來提供控制。
甚至,Meta 的研究團隊還引入了一種音頻擴展技術,允許模型生成超出初始 45 秒限制的連貫音頻,也就是說,無論視頻多長,模型都能夠生成匹配的音頻。
更多具體信息歡迎查看技術論文 👇https://ai.meta.com/static-resource/movie-gen-research-paper
昨天,OpenAI Sora 負責人 Tim Brooks 官宣離職,加盟 Google DeepMind,給前景不明的 Sora 項目再次蒙上了一層陰霾。
而據彭博社報道,Meta 副總裁 Connor Hayes 表示,目前 Meta Movie Gen 也沒有具體的產品計劃。Hayes 透露了延遲推出的重要原因。
Meta Movie Gen 當前使用文本提示詞生成一個視頻往往需要等待數十分鐘,極大影響了用戶的體驗。
Meta 希望進一步提高視頻生成的效率,以及實現儘快在移動端上推出該視頻服務,以便能更好地滿足消費者的需求。
其實如果從產品形態上看,MetaMovie Gen 的功能設計主打一個大而全,並沒有像其他視頻模型那樣的「瘸一條腿」。
最突出的缺點,頂多就是沾染了與 Sora 一樣的「期貨」氣息。
理想很豐滿,現實很骨感。
或許你會說,一如當下的 Sora 被國產大模型趕超,等到 Meta Movie Gen 推出之時,視頻生成領域的競爭格局或許又會變換一番光景。
但至少目前來看,Meta 畫的大餅足以讓人下咽。