Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單

2024年10月05日14:13:07 科技 1215

來源:愛范兒

扎克伯格最近忙著在全世界「搶風頭」。

前不久,開啟「二次創業」的他剛向我們展示了十年磨一劍的最強 AR 眼鏡 Meta Orion,儘管這只是一款押注未來的原型機器,卻搶光了蘋果 Vision Pro 的風頭。

而在昨晚,Meta 在視頻生成模型賽道再次大出風頭。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Meta表示,為止最先進的「全新發布的 Meta Movie Gen是迄今不過,先打個預防針,Meta 官方目前尚未給出明確的開放時間表。媒體基礎模型(Media Foundation Models)」。

官方宣稱正在積極地與娛樂行業的專業人士和創作者進行溝通和合作,預計將在明年某個時候將其整合到 Meta 自己的產品和服務中。

簡單總結一下 Meta Movie Gen 的特點:

擁有個性化視頻生成、精確視頻編輯和音頻生成等功能。

支持生成 1080P、16 秒、每秒 16 幀的高清長視頻

能夠生成最長 45 秒的高質量和高保真音頻

輸入簡單文本,即可實現複雜的精確視頻編輯功能

演示效果優秀,但該產品預計明年才會正式向公眾開放

告別「啞劇」,功能主打大而全

細分來說,Movie Gen 具有視頻生成、個性化視頻生成、精確視頻編輯和音頻生成四大功能。

文生視頻功能早已成為視頻生成模型的標配,只是,Meta Movie Gen 能夠根據用戶的需求生成不同長寬比的高清視頻,這在業內尚屬首創。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外,Meta Movie Gen 提供了高級的視頻編輯功能,用戶只需通過簡單的文本輸入即可實現複雜的視頻編輯任務。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

從視頻的視覺風格,到視頻片段之間的過渡效果,再到更細緻的編輯操作,這一點,該模型也給足了自由。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

在個性化視頻生成方面,Meta Movie Gen 也前邁進了一大步。

用戶可以通過上傳自己的圖片,利用 Meta Movie Gen 生成既個性化但又保持人物特徵和動作的視頻。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

從孔明燈到透明彩色泡泡,一句話輕鬆替換視頻同一物體。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Text input: Transform the lantern into a bubble that soars into the air.

儘管今年陸續已有不少視頻模型相繼亮相,但大多只能生成「啞劇」,食之無味棄之可惜,Meta Movie Gen 也沒有「重蹈覆轍」。

用戶可以通過提供視頻文件或文本內容,讓 Meta Movie Gen 根據這些輸入生成相對應的音頻。

並且,它不僅可以創建單個的聲音效果,還可以創建背景音樂,甚至為整個視頻製作完整的配樂,從而極大地提升視頻的整體質量和觀眾的觀看體驗。

看完演示 demo 的Lex Fridman言簡意賅地表達了讚歎。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

許多網友再次「拉踩」OpenAI 的期貨 Sora,但更多翹首以待的網友已經開始期待測試體驗資格的開放了。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Meta AI 首席科學家 Yann LeCun 也在線為 Meta Movie Gen 站台宣傳。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Meta 畫的大餅,值得期待

在推出 Meta Movie Gen 之時,Meta AI 研究團隊也同期公開了一份長達 92 頁的技術論文。

據介紹,Meta 的 AI 研究團隊主要使用兩個基礎模型來實現這些廣泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。

其中,Movie Gen Video 是一個 30B 參數的基礎模型,用於文本到視頻的生成,能夠生成高質量的高清視頻,最長可達 16 秒。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

模型預訓練階段使用了大量的圖像和視頻數據,能夠理解視覺世界的各種概念,包括物體運動、交互、幾何、相機運動和物理規律。

為了提高視頻生成的質量,模型還進行了監督微調(SFT),使用了一小部分精心挑選的高質量視頻和文本標題。

報告顯示,後訓練(Post-training)過程則是 Movie Gen Video 模型訓練的重要階段,能夠進一步提高視頻生成的質量,尤其是針對圖像和視頻的個性化和編輯功能。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

值得一提的是,研究團隊也將 Movie Gen Video 模型與主流視頻生成模型進行了對比。

由於 Sora 目前尚未開放,研究人員只能使用其公開發布的視頻和提示來進行比較。對於其他模型,如 Runway Gen3、LumaLabs 和 可靈 1.5,研究人員選擇通過 API 介面來自行生成視頻。

且由於 Sora 發布的視頻有不同的解析度和時長,研究人員對 Movie Gen Video 的視頻進行了裁剪,以確保比較時視頻具有相同的解析度和時長。

結果顯示,Movie Gen Video 整體評估效果上顯著優於 Runway Gen3 和 LumaLabs,對 OpenAI Sora 有輕微的優勢,與可靈 1.5 相當。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

未來,Meta 還計劃公開發布多個基準測試,包括 Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,以加速視頻生成模型的研究。

而 Movie Gen Audio 模型則是一個 13B 參數的模型,用於視頻和文本到音頻的生成,能夠生成長達 45 秒的高質量和高保真的音頻,包括聲音效果和音樂,並與視頻同步。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

該模型採用了基於 Flow Matching 的生成模型和擴散變換器(DiT)模型架構,並添加了額外的條件模塊來提供控制。

甚至,Meta 的研究團隊還引入了一種音頻擴展技術,允許模型生成超出初始 45 秒限制的連貫音頻,也就是說,無論視頻多長,模型都能夠生成匹配的音頻。

更多具體信息歡迎查看技術論文 👇https://ai.meta.com/static-resource/movie-gen-research-paper

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

昨天,OpenAI Sora 負責人 Tim Brooks 官宣離職,加盟 Google DeepMind,給前景不明的 Sora 項目再次蒙上了一層陰霾。

而據彭博社報道,Meta 副總裁 Connor Hayes 表示,目前 Meta Movie Gen 也沒有具體的產品計劃。Hayes 透露了延遲推出的重要原因。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

Meta Movie Gen 當前使用文本提示詞生成一個視頻往往需要等待數十分鐘,極大影響了用戶的體驗。

Meta 希望進一步提高視頻生成的效率,以及實現儘快在移動端上推出該視頻服務,以便能更好地滿足消費者的需求。

Meta AI視頻模型深夜炸場,自帶驚艷BGM,讓視頻編輯比P圖還簡單 - 天天要聞

其實如果從產品形態上看,MetaMovie Gen 的功能設計主打一個大而全,並沒有像其他視頻模型那樣的「瘸一條腿」。

最突出的缺點,頂多就是沾染了與 Sora 一樣的「期貨」氣息。

理想很豐滿,現實很骨感。

或許你會說,一如當下的 Sora 被國產大模型趕超,等到 Meta Movie Gen 推出之時,視頻生成領域的競爭格局或許又會變換一番光景。

但至少目前來看,Meta 畫的大餅足以讓人下咽。

科技分類資訊推薦

蘋果因 AirPods Pro 耳機雜音問題在美國遭遇集體訴訟 - 天天要聞

蘋果因 AirPods Pro 耳機雜音問題在美國遭遇集體訴訟

IT之家 11 月 14 日消息,據外媒 MacRumors 報道,三名蘋果客戶於本月對蘋果公司提起集體訴訟,指控該公司繼續銷售存在雜音問題的 AirPods Pro 耳機,違反了美國加州消費者保護法並進行虛假廣告宣傳。報道提到,2019 年 10 月 AirPods Pro 推出幾個月後,有買家開始抱怨 AirPods Pro 出現噼啪聲、嘎嘎聲、爆裂聲和
微軟慶祝 Windows 預覽體驗計劃 10 周年,紀念壁紙開放下載 - 天天要聞

微軟慶祝 Windows 預覽體驗計劃 10 周年,紀念壁紙開放下載

IT之家 11 月 14 日消息,微軟在 2014 年 10 月 1 日開啟了 Windows 預覽體驗計劃,如今已過去 10 年,有數百萬預覽體驗成員幫助微軟不斷改進 Windows 系統。在微軟官網的一篇博客中,Windows 預覽體驗成員團隊負責人 Amanda Langowski 表示:在紀念這一重要周年之際,我們對未來的可能性和創新感到興奮。我們一
1000億美元!這是GPU今年的全球市場規模…… - 天天要聞

1000億美元!這是GPU今年的全球市場規模……

據Jon Peddie Research最新數據,今年(2024年)全球GPU市場預計將超過985億美元,這意味著Nvidia等GPU供應商的收入將繼續增長。目前全球有超過20家企業和7家IP供應商正在開發獨立、集成和嵌入式GPU晶元。
5999元,今天發布的7050mAh新機,把我看傻了 - 天天要聞

5999元,今天發布的7050mAh新機,把我看傻了

前段時間,各大手機廠商都已經發布了自家的驍龍8至尊新機。不過,這些驍龍8至尊新機,電池容量普遍都沒有超過7000mAh。而就在今天,一款電池容量進入7字頭的驍龍8至尊新機發布了。電池容量達到7050mAh,這部新機就是紅魔10Pro+。
諾基亞新7650如此炸裂,外觀把我看傻了 - 天天要聞

諾基亞新7650如此炸裂,外觀把我看傻了

諾基亞手機除了中低端機型之外,高端旗艦手機幾乎沒有競爭力。而在網友們的印象中,曾經的諾基亞7650、諾基亞N97等機型堪稱經典。推出復刻版機型,對於諾基亞來說並不是難事。外媒帶來了一組諾基亞新7650渲染設計圖,外觀上特別炸裂。
榮耀300Pro+太猛了,這設計絕對炸裂 - 天天要聞

榮耀300Pro+太猛了,這設計絕對炸裂

榮耀Magic7系列才上市不久,榮耀數字系列也開啟了預熱。按照迭代規則,這次將要迭代的數字系列,就是榮耀300系列。不過,這次有消息透露,榮耀300系列將會推出超大杯,也就是榮耀300Pro+。同時外媒還帶來了一組渲染設計圖。
華為Mate70Pro+,再創巔峰! - 天天要聞

華為Mate70Pro+,再創巔峰!

華為Mate70系列已經官宣之後,不少網友對華為Mate70系列都十分關心。目前華為Mate70系列,將會包含四款機型。分別是華為Mate70、華為Mate70Pro、華為Mate70Pro+、華為Mate70RS非凡大師。那麼,這四款機型
399賣爆!小米這次的騷操作,果然贏麻了 - 天天要聞

399賣爆!小米這次的騷操作,果然贏麻了

‍起猛了家人們。 早上迷迷糊糊開始刷微博,看到雷總發了一張躺在地上的照片。 直接給我整清醒了。 看完微博內容才知道,這照片是在小米汽車工廠拍的: 眼鏡一閉,一....