Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度

2022年09月30日13:10:23 科技 1973

魚羊 Alex 發自 凹非寺

量子位 | 公眾號 QbitAI

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

畫家執筆在畫布上戳戳點點,形成手繪作品獨有的筆觸。

你以為這是哪部紀錄片的畫面?

No,No,No!

視頻里的每一幀,都是AI生成的

還是你告訴它,來段“畫筆在畫布上的特寫”,它就能直接整出畫面的那種。

不僅能無中生畫筆,按着馬頭喝水也不是不可以。

同樣是一句“馬兒喝水”,這隻AI就拋出了這樣的畫面:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

好傢夥,這是以後拍視頻真能全靠一張嘴的節奏啊……

不錯,那廂一句話讓AI畫畫的Text to Image正搞得風生水起,這廂Meta AI的研究人員又雙叒給生成AI來了個超進化。

這回是真能“用嘴做視頻”了:

AI名為Make-A-Video,直接從DALL·E、Stable Diffusion搞火的靜態生成飛升動態。

給它幾個單詞或幾行文字,就能生成這個世界上其實並不存在的視頻畫面,掌握的風格還很多元。

不僅紀錄片風格能hold住,整點科幻效果也沒啥問題。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

兩種風格混合一下,機器人在時代廣場蹦迪的畫面好像也沒啥違和感。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

文藝小清新的動畫風格,看樣子Make-A-Video也把握住了。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

這麼一波操作下來,那真是把不少網友都看懵了,連評論都簡化到了三個字母:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

而大佬LeCun則意味深長地表示:該來的總是會來的。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

畢竟一句話生成視頻這事兒,之前就有不少業內人士覺得“快了快了”。只不過Meta這一手,確實有點神速:

比我想象中快了9個月。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

甚至還有人表示:我已經有點適應不了AI的進化速度了……

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

文本圖像生成模型超進化版

你可能會覺得Make-A-Video是個視頻版的DALL·E。

實際上,差不多就是這麼回事兒(手動狗頭)

前面提到,Make-A-Video是文本圖像生成(T2I)模型的超進化,那是因為這個AI工作的第一步,其實還是依靠文本生成圖像。

從數據的角度來說,就是DALL·E等靜態圖像生成模型的訓練數據,是成對的文本-圖像數據。

而Make-A-Video雖然最終生成的是視頻,但並沒有專門用成對的文本-視頻數據訓練,而是依然靠文本-圖像對數據,來讓AI學會根據文字復現畫面。

視頻數據當然也有涉及,但主要是使用單獨的視頻片段來教給AI真實世界的運動方式。


具體到模型架構上,Make-A-Video主要由三部分組成:

  • 文本圖像生成模型P
  • 時空卷積層和注意力層
  • 用於提高幀率的幀插值網絡和兩個用來提升畫質的超分網絡

整個模型的工作過程是醬嬸的:

首先,根據輸入文本生成圖像嵌入。

然後,解碼器Dt生成16幀64×64的RGB圖像。

插值網絡↑F會對初步結果進行插值,以達到理想幀率。

接着,第一重超分網絡會將畫面的分辨率提高到256×256。第二重超分網絡則繼續優化,將畫質進一步提升至768×768。

基於這樣的原理,Make-A-Video不僅能根據文字生成視頻,還具備了以下幾種能力。

將靜態圖像轉成視頻:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

根據前後兩張圖片生成一段視頻:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

根據原視頻生成新視頻:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

刷新文本視頻生成模型SOTA

其實,Meta的Make-A-Video並不是文本生成視頻(T2V)的首次嘗試。

比如,清華大學和智源在今年早些時候就推出了他們自研的“一句話生成視頻”AI:CogVideo,而且這是目前唯一一個開源的T2V模型。

更早之前,GODIVA和微軟的“女媧”也都實現過根據文字描述生成視頻。

不過這一次,Make-A-Video在生成質量上有明顯的提升。

在MSR-VTT數據集上的實驗結果顯示,在FID(13.17)和CLIPSIM(0.3049)兩項指標上,Make-A-Video都大幅刷新了SOTA。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

此外,Meta AI的團隊還使用了Imagen的DrawBench,進行人為主觀評估。

他們邀請測試者親身體驗Make-A-Video,主觀評估視頻與文本之間的邏輯對應關係。

結果顯示,Make-A-Video在質量和忠實度上都優於其他兩種方法。

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

One More Thing

有意思的是,Meta發布新AI的同時,似乎也拉開了T2V模型競速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,創始人兼CEO Emad放話道:

我們將發布一個比Make-A-Video更好的模型,大家都能用的那種!

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

而就在前幾天,ICLR網站上也出現了一篇相關論文Phenaki

生成效果是這樣的:

Meta「AI導演」一句話搞定視頻素材,網友:我已跟不上AI發展速度 - 天天要聞

對了,雖然Make-A-Video尚未公開,但Meta AI官方也表示,準備推出一個Demo讓大家可以實際上手體驗,感興趣的小夥伴可以蹲一波了~

論文地址:
https://makeavideo.studio/Make-A-Video.pdf
參考鏈接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

比 5G 快 10 倍!你的手機有 5G-A 了嗎? - 天天要聞

比 5G 快 10 倍!你的手機有 5G-A 了嗎?

最近,不少人發現自己的手機上出現 5G-A 信號。和 5G 相比,5G-A 是什麼,會給我們的生活帶來什麼樣的變化?5G-A最直觀體驗——網速快將推動行業變革5G-A 和 5G 相比,能夠在容量、速率、時延、定位、可靠性等方面實現大幅提升,帶來更快更優質的通信體驗,並有望實現低成本千億物聯。專家表示,目前,我國運營商已經在國內...
集體下架!抖音、微信、淘寶、快手接連公告 - 天天要聞

集體下架!抖音、微信、淘寶、快手接連公告

近日抖音、微信、淘寶、快手等多個平台發布公告攔截、下架一批違規微短劇▼抖音5月9日,“抖音短劇”公眾號發布《抖音關於打擊違規微短劇的公告》稱,抖音致力於打造積極、開放、友善的社區環境,持續推進微短劇內容治理,鼓勵和推廣優質微短劇,持續對含有不良價值觀導向、違反公序良俗、低俗“擦邊”等違規內容的微短劇,...
海量財經|李佳琦帶媽媽開啟直播 闖進3億銀髮經濟消費藍海 - 天天要聞

海量財經|李佳琦帶媽媽開啟直播 闖進3億銀髮經濟消費藍海

海報新聞記者 杜鄭敏 報道“美衣美食美生活,就來爸媽的幸福家。”近日,李佳琦的全新直播間“所有爸媽的幸福家”正式拉開帷幕。這場以“重返20歲”為主題、持續6小時的銀髮經濟專場直播,最終以超3000萬元銷售額、超200萬觀看人次收官。“所有爸媽的幸福家”李佳琦直播間現場不過此次直播的主角倒不是李佳琦,而是他的媽媽...
谷歌被起訴 - 天天要聞

谷歌被起訴

來源:新華社數字地圖將墨西哥灣標記為“美國灣” 墨西哥政府起訴谷歌墨西哥總統克勞迪婭·辛鮑姆9日說,就科技巨頭谷歌公司在給美國用戶的數字地圖中把整個墨西哥灣標記為“美國灣”,墨西哥政府已經提起訴訟。辛鮑姆9日在例行記者會上說,墨西哥政府已經提交訴訟申請,要求谷歌公司嚴格執行美國政府批准的命名,即美方有...
本月就面世!vivo這款新機已爆料這些信息,正面真的很好看! - 天天要聞

本月就面世!vivo這款新機已爆料這些信息,正面真的很好看!

藍廠vivo今年是真的跟“mini”機型幹上了,這不,除了X數字旗艦系列之外,S系列的中端機型也將迎來自家的首款mini機型,聰明如藍廠,除了為它安排小直屏、大電池之外,處理器也算是跟上了時代的主流,這回,大家應該不會再將它稱作是廠妹機了吧?根據坊間爆料,vivo將這款新機命名為vivo S30 Pro mini,跟自家的vivo X200 ...
兩大巨頭突然“聯姻”,電商江湖巨變在即! - 天天要聞

兩大巨頭突然“聯姻”,電商江湖巨變在即!

電商江湖炸鍋了!5月7日,中國互聯網兩大巨頭突然宣布聯手!2025年5月7日,阿里巴巴旗下的淘寶天貓(下稱“淘天”)和小紅書宣布“紅貓計劃”,雙方達成戰略合作。淘寶天貓和小紅書的“紅貓計劃”,不是什麼普通合作,是一場蓄謀已久的戰略聯姻!
分享 華夏社區預約通道上線首日突破10萬人次,各大媒體聚焦報道引發全國熱潮 - 天天要聞

分享 華夏社區預約通道上線首日突破10萬人次,各大媒體聚焦報道引發全國熱潮

2025年5月8日,華夏通訊社 2025年5月7日,華夏社區平台預約通道正式開啟,面向全國用戶開放註冊登記。首日預約人數突破10萬人次,創下平台啟動以來的首個“硬核里程碑”,並迅速引發社會各界廣泛關注。人民網、新華社、央視新聞、光明網、經濟日報、鳳凰衛視、澎湃新聞等主流媒體紛紛報道此事,肯定其對“全民共富機制探索...
向天圖強,蚌埠憑什麼? - 天天要聞

向天圖強,蚌埠憑什麼?

敢立凌雲志星海路可攀在蚌埠,開往星辰大海的產業巨輪已經啟航。當火箭攜着金橙色洪流直衝天際,蚌埠正深度參與這一場雲端裂變。
外媒:英偉達將為中國市場推出降級版H20芯片 - 天天要聞

外媒:英偉達將為中國市場推出降級版H20芯片

參考消息網5月10日報道據新加坡《聯合早報》網站5月9日報道,美國政府對英偉達的H20人工智能(AI)芯片實施出口限制約一個月後,據報英偉達計劃在未來兩個月內,為中國市場推出降級版的H20。