寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型

2022年10月17日19:10:31 熱門 1409

編輯:LRS

新智元導讀】剛做完畫家,普通人又能當導演了?


基於文本的圖像生成模型效果驚艷,可以說是時下討論最火熱的AI研究領域了,內行外行都能看個熱鬧。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


那要是讓照片動起來,效果是不是更賽博朋克了?


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


最近Google投稿ICLR 2023的一篇論文在生成模型界又掀起波瀾,除了讓照片動起來,文中提出的Phenaki模型還可以在文本描述中添加劇情,讓視頻內容更豐富。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞

論文鏈接:https://openreview.net/forum?id=vOEXS39nOF


比如輸入文本:


A photorealistic teddy bear is swimming in the ocean at San Francisco.

一隻逼真的泰迪熊在舊金山的大海里游泳。

The teddy bear goes under water.

泰迪熊進入水中。

The teddy bear keeps swimming under the water with colorful fishes.

泰迪熊在水中不斷地遊動,旁邊有五顏六色的魚

A panda bear is swimming under water.

一隻大熊貓在水底游泳


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


如果說前面還算合理,看到最後泰迪熊變身大熊貓,實在綳不住了。


反轉放短視頻平台上不得幾百萬點贊,豆瓣評分都得9.9,扣0.1分怕你驕傲。


再來一個例子,依然能完美還原劇本

Side view of an astronaut is walking through a puddle on mars

宇航員在火星上走過水坑的側影

The astronaut is dancing on mars

宇航員在火星上跳舞

The astronaut walks his dog on mars

宇航員在火星上帶著他的狗散步

The astronaut and his dog watch fireworks

宇航員和他的狗觀看煙花


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


一人一狗,外太空,看的有點感動怎麼回事。


相比文本引導的圖像生成模型來說,生成視頻的計算成本更高,高質量的文本-視頻訓練數據也要少的多,並且輸入的視頻長度參差不齊等問題,從文本中直接生成視頻更困難。


為了解決這些問題,Phenaki引入了一個學習視頻表示的新模型,將視頻壓縮後用離散tokens進行表徵,tokenizer在時間維度上使用因果注意力(causal attention)來處理不同長度的視頻,然後使用一個預訓練的雙向掩碼Transformer模型對文本進行編碼直接生成視頻。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


為了解決數據問題,研究人員提出一種聯合訓練方法,使用大量的文本-圖像語料以及少量的文本-視頻語料實現更好的泛化性能。


與之前的視頻生成方法相比,Phenaki支持任意領域的文本故事,劇情可以隨時間變化且能夠生成任意長度的視頻。


這也是第一次有論文研究從時間可變的文本提示中生成視頻,並且文中提出的視頻編碼器/解碼器在空間和時間上的質量均優於其他模型。


從文本到視頻


從本質上講,雖然視頻就是一個圖像序列,但生成一個長且連貫的視頻卻並不容易。


圖像領域不缺訓練數據,比如LAION-5B, FFT4B等數據集都包括數十億的文本-圖像數據對,而文本-視頻數據集如WebVid則只有大約一千萬個視頻,遠遠不夠支撐開放領域的視頻生成。


從計算力上來看,訓練和推理圖像生成模型已經快把GPU的性能榨乾了,是否能擠出計算空間留給視頻生成解碼器也是一個要解決的問題。


文本引導的視頻生成任務還有一個難點,一小段文本對於圖片生成來說可能足夠描述細節,但對於一個長視頻來說遠遠不夠,並且視頻包括上下文,即下一個片段的生成需要以當前片段作為條件,隨著時間的推移,故事逐漸展開。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


理想情況下,視頻生成模型必須能夠生成任意長度的視頻,同時有能力將某一時刻的生成幀以當前時刻的文本提示作為條件,這些文本提示會隨時間步變化。


這種能力可以將視頻與會動的圖像明確區分開來,並為藝術、設計和內容創作等現實世界創造性應用開闢道路。


在此之前,基於故事的有條件視頻生成(story based conditional video generation)是一塊從未被探索過的領域,這就是第一篇朝該目標邁出的論文。


想要用傳統的深度學習方法,即直接從數據中學習視頻生成是不可能的,因為沒有基於故事的數據集可以學習。


為了實現這一目標,研究人員為Phenaki模型設計了兩個組件,一個編碼器-解碼器模型用來把視頻壓縮成離散的embeddings,以及一個Transformer模型,把文本embeddings翻譯成視頻tokens,其中文本向量由預訓練模型T5X進行編碼。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


1、編碼器-解碼器視頻模型:C-VIVIT


這個模塊要解決的主要問題是如何獲得視頻的壓縮表徵,之前關於文本轉視頻的工作要麼對每幀圖像進行編碼,但對視頻長度有限制;要麼使用固定長度的視頻編碼器,無法生成可變長度的視頻。


C-ViViT是ViViT的因果變體,專門為視頻生成任務調整了模型架構,可以在時間和空間維度上壓縮視頻,同時在時間維度上保持自回歸,從而允許自回歸地生成任意長度的視頻。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


首先在空間和時間Transformer中刪除[CLS]標記,然後對所有由空間編碼器計算的空間token使用時間Transfomrer,與ViViT中對[CLS]標記的單一時間Transformer的運行不同。


最重要的是,ViViT編碼器需要一個固定長度的視頻輸入,因為它在時間上採用的是all-to-all注意力。將其替換為因果注意力之後,C-ViViT編碼器就會變成自回歸,並允許輸入幀的數量可變。


2、使用雙向Transformers從文本中生成視頻


可以把文本到視頻的任務看作是sequence-to-sequence的問題,以預測輸入的文本向量對應的視頻tokens


大部分的seq-to-seq模型都使用自回歸Transformer,根據編碼的文本特徵按照順序預測圖像或視頻tokens,即採樣時間與序列長度成線性關係,對於長視頻的生成來說是不可接受的。


Phenaki採用掩碼雙向Transformer,通過一個小且固定的採樣步驟來減少採樣時間,而無需考慮不同的視頻序列長度,雙向Transfomrer可以同時預測不同的視頻tokens


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


在每個訓練步驟,首先從0到1中隨機選擇一個掩碼比率,並根據視頻長度隨機地用特殊標記[MASK]替換一部分token


然後根據給定的文本向量和未掩碼的視頻tokens,通過最小化掩碼token的交叉熵損失來學習模型參數。


在推理過程中,首先將所有的視頻tokens標記為特殊詞[MASK],然後在每個推理步驟中,根據文本向量和未掩碼的(要預測的)視頻tokens,平行地預測所有被掩碼(未知)的視頻token


在每個採樣步驟中,選擇一個預測token的比例,其餘的tokens在下一步中將被重新掩碼和重新預測。


對於長視頻的推理和自回歸生成,使用事前訓練(classifier-free)的引導來控制生成和文本條件之間的一致性。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


一旦生成了第一個視頻,就可以通過使用C-ViViT對最後一個視頻中的最後K個生成的幀進行編碼,自動遞歸地推理出其他幀。


用C-ViViT編碼器計算出的token初始化MaskGIT,並繼續生成以文本輸入為條件的剩餘視頻標記。


在視頻推理過程中,文本條件可以是相同的,也可以是不同的,這也使得該模型能夠在之前和當前文本條件的視覺內容之間動態地創建視覺過渡,有效地生成一個由輸入文本描述的視覺故事。


最終,研究人員在1500萬8FPS的文本-視頻對,5000萬個文本-圖像對,以及4億混合語料庫LAION-400M上進行訓練,最終Phenaki模型參數量為18億。


batch size為512的情況下訓練了100萬步,用時不到5天,其中80%的訓練數據來自視頻數據集。


在視覺的定性評價上,可以看到模型對視頻中的人物和背景動態的控制程度都很高,並且外觀和視頻的風格也可以通過文本提示來調整(例如,普通視頻、卡通或鉛筆畫


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


在定量比較上,Phenaki在zero-shot設置下實現了和其他模型相當的生成質量。


寫好劇本直接出片!Google發布首個「講故事」的視頻生成模型 - 天天要聞


在考慮訓練數據的影響時,可以發現在只用視頻訓練的模型和用更多的圖像數據訓練的模型之間存在著性能上的權衡。

參考資料:

https://phenaki.video/

熱門分類資訊推薦

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO - 天天要聞

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO雖然說《愛情公寓》這部劇在劇情上充滿了爭議,但是一定程度上,這部劇也是很多人的回憶,是伴隨了一代人的青春回憶,而且劇中的很多角色都成為了經典,他們的口頭禪也一直被拿來玩兒梗。
Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了 - 天天要聞

Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了

談到《愛情公寓》這部火爆一時的歡樂喜劇,大家肯定都不陌生。不知道大家是否還記得《愛情公寓》中那個把曾小賢治得服服帖帖的女上司Lisa榕,現實中的她名叫榕榕,和劇中的形象也判若兩人。1981年出生在遼寧瀋陽的榕榕,畢業於上海戲劇學院,後來成為了上海東方傳媒集團有限公司的一名主持人。