Meta「AI導演」一句話搞定視頻素材，網友：我已跟不上AI發展速度

2022年09月30日13:10:23 科技 1973

魚羊 Alex 發自凹非寺
量子位 | 公眾號 QbitAI

畫家執筆在畫布上戳戳點點，形成手繪作品獨有的筆觸。

你以為這是哪部紀錄片的畫面？

No，No，No！

視頻里的每一幀，都是AI生成的。

還是你告訴它，來段「畫筆在畫布上的特寫」，它就能直接整出畫面的那種。

不僅能無中生畫筆，按著馬頭喝水也不是不可以。

同樣是一句「馬兒喝水」，這隻AI就拋出了這樣的畫面：

好傢夥，這是以後拍視頻真能全靠一張嘴的節奏啊……

不錯，那廂一句話讓AI畫畫的Text to Image正搞得風生水起，這廂Meta AI的研究人員又雙叒給生成AI來了個超進化。

這回是真能「用嘴做視頻」了：

AI名為Make-A-Video，直接從DALL·E、Stable Diffusion搞火的靜態生成飛升動態。

給它幾個單詞或幾行文字，就能生成這個世界上其實並不存在的視頻畫面，掌握的風格還很多元。

不僅紀錄片風格能hold住，整點科幻效果也沒啥問題。

兩種風格混合一下，機器人在時代廣場蹦迪的畫面好像也沒啥違和感。

文藝小清新的動畫風格，看樣子Make-A-Video也把握住了。

這麼一波操作下來，那真是把不少網友都看懵了，連評論都簡化到了三個字母：

而大佬LeCun則意味深長地表示：該來的總是會來的。

畢竟一句話生成視頻這事兒，之前就有不少業內人士覺得「快了快了」。只不過Meta這一手，確實有點神速：

比我想像中快了9個月。

甚至還有人表示：我已經有點適應不了AI的進化速度了……

文本圖像生成模型超進化版

你可能會覺得Make-A-Video是個視頻版的DALL·E。

實際上，差不多就是這麼回事兒（手動狗頭）。

前面提到，Make-A-Video是文本圖像生成（T2I）模型的超進化，那是因為這個AI工作的第一步，其實還是依靠文本生成圖像。

從數據的角度來說，就是DALL·E等靜態圖像生成模型的訓練數據，是成對的文本-圖像數據。

而Make-A-Video雖然最終生成的是視頻，但並沒有專門用成對的文本-視頻數據訓練，而是依然靠文本-圖像對數據，來讓AI學會根據文字復現畫面。

視頻數據當然也有涉及，但主要是使用單獨的視頻片段來教給AI真實世界的運動方式。

具體到模型架構上，Make-A-Video主要由三部分組成：

文本圖像生成模型P
時空卷積層和注意力層
用於提高幀率的幀插值網路和兩個用來提升畫質的超分網路

整個模型的工作過程是醬嬸的：

首先，根據輸入文本生成圖像嵌入。

然後，解碼器Dt生成16幀64×64的RGB圖像。

插值網路↑F會對初步結果進行插值，以達到理想幀率。

接著，第一重超分網路會將畫面的解析度提高到256×256。第二重超分網路則繼續優化，將畫質進一步提升至768×768。

基於這樣的原理，Make-A-Video不僅能根據文字生成視頻，還具備了以下幾種能力。

將靜態圖像轉成視頻：

根據前後兩張圖片生成一段視頻：

根據原視頻生成新視頻：

刷新文本視頻生成模型SOTA

其實，Meta的Make-A-Video並不是文本生成視頻（T2V）的首次嘗試。

比如，清華大學和智源在今年早些時候就推出了他們自研的「一句話生成視頻」AI：CogVideo，而且這是目前唯一一個開源的T2V模型。

更早之前，GODIVA和微軟的「女媧」也都實現過根據文字描述生成視頻。

不過這一次，Make-A-Video在生成質量上有明顯的提升。

在MSR-VTT數據集上的實驗結果顯示，在FID（13.17）和CLIPSIM（0.3049）兩項指標上，Make-A-Video都大幅刷新了SOTA。

此外，Meta AI的團隊還使用了Imagen的DrawBench，進行人為主觀評估。

他們邀請測試者親身體驗Make-A-Video，主觀評估視頻與文本之間的邏輯對應關係。

結果顯示，Make-A-Video在質量和忠實度上都優於其他兩種方法。

One More Thing

有意思的是，Meta發布新AI的同時，似乎也拉開了T2V模型競速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了，創始人兼CEO Emad放話道：

我們將發布一個比Make-A-Video更好的模型，大家都能用的那種！

而就在前幾天，ICLR網站上也出現了一篇相關論文Phenaki。

生成效果是這樣的：

對了，雖然Make-A-Video尚未公開，但Meta AI官方也表示，準備推出一個Demo讓大家可以實際上手體驗，感興趣的小夥伴可以蹲一波了~

論文地址：
https://makeavideo.studio/Make-A-Video.pdf
參考鏈接：
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

5499元的iPhone16 Pro太火，把國補資金都用完了？

最近，有很多媒體報道稱，多地的國補出現了暫停申領等情況。比如重慶、湖北、甘肅等地的一些地區，就受到限制，無法申請了。還有一些地區，也做了申請時間的限制，每天定時搶卷，只放出多少，一旦申請的晚了，就沒有了。

06月08日 1829

5.2C！小米YU7充電速度首次公布：遠超SU7

6月8日消息，距離7月正式上市發布越來越近，在最新一期小米汽車答網友問（第152集）中，小米汽車公布了YU7的充電速度。談及「小米YU7的充電速度怎麼樣」，官方表示，小米YU7全系搭載800V碳化硅高壓平台，其中小米YU7 Max的最大充電

06月08日 1503

特斯拉Optimus項目負責人離職，項目前景添變數

來源：環球網【環球網財經綜合報道】美東時間周五，特斯拉擎天柱人形機器人Optimus項目負責人米蘭·科瓦奇在X平台宣布即將離職。他稱這是「一生中最艱難的決定」，原因是離家太久，需花更多時間陪伴國外家人，強調此決定「與其他任何事情都無關」，

06月08日 1391

史上最經典的6部掌上遊戲機，二手價不降反升，比黃金還保值

上周五，任天堂Switch2開啟全球首銷，當天就賣了300多萬台，刷新了遊戲機單日銷售記錄，不愧是爆款的後代。Switch系列這麼成功，與它兼顧主機與掌機的「雙形態」有很大關係。而提到掌機，這對我人生影響極大，從1999年舅母送我任天堂GB

06月08日 1588

首屆「復新」全球大學生智能影像創作大賽啟動

昨天，首屆「復新」全球大學生智能影像創作大賽在復旦大學新聞學院啟動。本次大賽由上海市人民政府新聞辦公室指導，由復旦大學新聞學院主辦，旨在激發全球大學生的創新思維，將為全球大學生提供一個展示創意與才華的舞台，推動智能影像技術在傳媒領域的應用與發展，為培養適應時代需求的傳媒人才注入新的活力。大賽開設五大...

06月08日 7590

有點尷尬了，小米黑稿越多，賣的越多，起反作用了？

說真的，小米真的是一家神奇的公司，為什麼神奇呢，就是因為自從小米誕生以來，就一直風風雨雨的，愛的人愛到骨子裡，恨的人也是恨到骨子裡。所以伴隨著小米成長的，不僅有讚譽，還有各種攻擊、抹黑等。

06月08日 1900

炮轟價格戰和造假者，學習雷軍一年後，魏建軍選擇超越

5月21日晚，小米全新SUV小米YU7正式亮相小米戰略新品發布會。在雷軍的演講中，小米YU7拳打Model Y腳踩保時捷，平等創飛了每一個出現在PPT上的競品。

06月08日 4647

「國風照」席捲畢業季：電商平台單品銷售多至上萬單

▲天津師範大學陳婧熙在社交媒體上分享自己的國風畢業照「我穿的這一套漢服是粉黛系列，裙子是馬面裙，裝飾在學士帽上的花朵髮飾，靈感類似中式傳統發簪、花鈿等頭飾，手中拿的是中式花扇。」天津師範大學的陳婧熙今年畢業。她將自己的國風畢業照發布在社交媒體平台上進行分享，覺得把傳統中式美學融入自己的畢業照中特別有...

06月08日 3853