行業洞察 | 文本生成視頻，Meta、Google哪家更勝一籌？

2022年10月13日19:39:24 科技 1246

圖片來源 https://www.midjourney.com/showcase/

當我們沉浸於抖音、快手，吃着零食葛優躺，這個世界正在悄然刷新着我們的認知。此前，通過 DALL-E、MidJourney 和 CrAIyon 等 AI 工具，普通用戶可以輸入簡單的文本內容，經過人工智能創作出藝術插畫。近期，Meta和Google在此基礎上更進一步，相繼推出文本、語音生成視頻的黑科技。

#Meta

Meta的Make-A-Video不僅能夠生成圖片，還可以生成聲情並茂的視頻內容。根據用戶輸入的描繪某個場景的文本信息，生成一個相匹配的短視頻。

樣例網站：https://make-a-video.github.io/

#Google

除了Meta，Google也在假期之末獻上兩名視頻生成競爭選——Imagen Video和Phenaki。根據Google CEO Sundar Pichai介紹，Imagen Video比Meta的Make-A-Video擁有更高的分辨率，能生成1280*768，每秒24幀的視頻分段。

樣例網站：https://imagen.research.google/video/

而Phenaki則可以根據200個單詞左右的文字描述，生成2分鐘以上的視頻，講述一個完整的小故事，堪比一個小小的導演。

樣例網站：https://phenaki.video/

背後到底依賴什麼技術？

Make-A-Video Meta

Make-A-Video的模型架構如下所示，該技術是在原來Text-to-Image的基礎上改進而來，主要動機是了解世界的樣子，以及描述與其配對的文本圖像數據，並從無監督視頻中學習現實世界錄製視頻時的鏡頭移動。

首先，作者解耦了完整的時間 U-Net 和注意力張量，並在空間和時間上對它們進行近似逼近。其次，作者設計了一個時空流水線來生成高分辨率和幀率視頻，其中包含一個視頻解碼器、插值模型和兩個超分辨率模型，可以實現包括 Text-to-Video的各種文本生成應用。

來自源論文：https://arxiv.org/pdf/2209.14792.pdf

Make-A-Video 的高級架構圖中顯示，給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ，解碼器 Dt 生成 16 個 64 × 64 分辨率的幀，然後通過 ↑F 將其插值到更高的幀速率，並提高分辨率到 SRt l 為 256 × 256，SRh 為 768 × 768，最後生成高時空分辨率的視頻 y^。

Imagen Video Google

Imagen Video是基於最近大火的擴散模型，直接繼承圖像生成SOTA模型Imagen。

除了分辨率高以外，還展示出三種特別能力。

首先它能理解並生成不同藝術風格的作品，物體的3D結構在旋轉展示中不會變形。Imagen Video是一系列模型的集合。語言模型部分是Google自家的T5-XXL，訓練好後凍結文本編碼器部分。其中，語言模型只負責編碼文本特徵，把文本到圖像轉換的工作交給了後面的視頻擴散模型。基礎模型在生成圖像的基礎上，以自回歸方式不斷預測下一幀，首先生成一個48*24每秒3幀的視頻。其從文本提示輸入開始到生成視頻的流程圖如下圖所示：

來自源論文：https://imagen.research.google/video/paper.pdf

Phenaki Google

在Phenaki之前，AI模型可以一個具體提示生成一個超短視頻，但是無法生成2分鐘連貫的視頻。Phenaki實現了腦部故事情節，生成2分鐘以上視頻。

研究人員引入了一個新的因果模型來學習表示視頻：將視頻視作圖像的一個時間序列。該模型基於Transformer，可以將視頻分解成離散的小表示，而分解視頻則是按照時間的因果順序來進行的。也就是通過空間Transformer將單個提示進行編碼，隨後再用因果Transformer將多個編碼好的提示串聯起來。其流程圖如下所示：