行业洞察 | 文本生成视频，Meta、Google哪家更胜一筹？

2022年10月13日19:39:24 科技 1246

图片来源 https://www.midjourney.com/showcase/

当我们沉浸于抖音、快手，吃着零食葛优躺，这个世界正在悄然刷新着我们的认知。此前，通过 DALL-E、MidJourney 和 CrAIyon 等 AI 工具，普通用户可以输入简单的文本内容，经过人工智能创作出艺术插画。近期，Meta和Google在此基础上更进一步，相继推出文本、语音生成视频的黑科技。

#Meta

Meta的Make-A-Video不仅能够生成图片，还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息，生成一个相匹配的短视频。

样例网站：https://make-a-video.github.io/

#Google

除了Meta，Google也在假期之末献上两名视频生成竞争选——Imagen Video和Phenaki。根据Google CEO Sundar Pichai介绍，Imagen Video比Meta的Make-A-Video拥有更高的分辨率，能生成1280*768，每秒24帧的视频分段。

样例网站：https://imagen.research.google/video/

而Phenaki则可以根据200个单词左右的文字描述，生成2分钟以上的视频，讲述一个完整的小故事，堪比一个小小的导演。

样例网站：https://phenaki.video/

背后到底依赖什么技术？

Make-A-Video Meta

Make-A-Video的模型架构如下所示，该技术是在原来Text-to-Image的基础上改进而来，主要动机是了解世界的样子，以及描述与其配对的文本图像数据，并从无监督视频中学习现实世界录制视频时的镜头移动。

首先，作者解耦了完整的时间 U-Net 和注意力张量，并在空间和时间上对它们进行近似逼近。其次，作者设计了一个时空流水线来生成高分辨率和帧率视频，其中包含一个视频解码器、插值模型和两个超分辨率模型，可以实现包括 Text-to-Video的各种文本生成应用。

来自源论文：https://arxiv.org/pdf/2209.14792.pdf

Make-A-Video 的高级架构图中显示，给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ，解码器 Dt 生成 16 个 64 × 64 分辨率的帧，然后通过 ↑F 将其插值到更高的帧速率，并提高分辨率到 SRt l 为 256 × 256，SRh 为 768 × 768，最后生成高时空分辨率的视频 y^。

Imagen Video Google

Imagen Video是基于最近大火的扩散模型，直接继承图像生成SOTA模型Imagen。

除了分辨率高以外，还展示出三种特别能力。

首先它能理解并生成不同艺术风格的作品，物体的3D结构在旋转展示中不会变形。Imagen Video是一系列模型的集合。语言模型部分是Google自家的T5-XXL，训练好后冻结文本编码器部分。其中，语言模型只负责编码文本特征，把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上，以自回归方式不断预测下一帧，首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示：

来自源论文：https://imagen.research.google/video/paper.pdf

Phenaki Google

在Phenaki之前，AI模型可以一个具体提示生成一个超短视频，但是无法生成2分钟连贯的视频。Phenaki实现了脑部故事情节，生成2分钟以上视频。

研究人员引入了一个新的因果模型来学习表示视频：将视频视作图像的一个时间序列。该模型基于Transformer，可以将视频分解成离散的小表示，而分解视频则是按照时间的因果顺序来进行的。也就是通过空间Transformer将单个提示进行编码，随后再用因果Transformer将多个编码好的提示串联起来。其流程图如下所示：