行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹?

2022年10月13日19:39:24 科技 1246

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻

图片来源 https://www.midjourney.com/showcase/


当我们沉浸于抖音、快手,吃着零食葛优躺,这个世界正在悄然刷新着我们的认知。此前,通过 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用户可以输入简单的文本内容,经过人工智能创作出艺术插画。近期,Meta和Google在此基础上更进一步,相继推出文本、语音生成视频的黑科技。


#Meta

Meta的Make-A-Video不仅能够生成图片,还可以生成声情并茂的视频内容。根据用户输入的描绘某个场景的文本信息,生成一个相匹配的短视频。

样例网站:https://make-a-video.github.io/

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻


#Google

除了Meta,Google也在假期之末献上两名视频生成竞争选——Imagen Video和Phenaki。根据Google CEO Sundar Pichai介绍,Imagen Video比Meta的Make-A-Video拥有更高的分辨率,能生成1280*768,每秒24帧的视频分段。

样例网站:https://imagen.research.google/video/

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻

Phenaki则可以根据200个单词左右的文字描述,生成2分钟以上的视频,讲述一个完整的小故事,堪比一个小小的导演。

样例网站:https://phenaki.video/

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻


背后到底依赖什么技术?

Make-A-Video Meta

Make-A-Video的模型架构如下所示,该技术是在原来Text-to-Image的基础上改进而来,主要动机是了解世界的样子,以及描述与其配对的文本图像数据,并从无监督视频中学习现实世界录制视频时的镜头移动。

首先,作者解耦了完整的时间 U-Net 和注意力张量,并在空间和时间上对它们进行近似逼近。其次,作者设计了一个时空流水线来生成高分辨率和帧率视频,其中包含一个视频解码器、插值模型和两个超分辨率模型,可以实现包括 Text-to-Video的各种文本生成应用。

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻

来自源论文:https://arxiv.org/pdf/2209.14792.pdf


Make-A-Video 的高级架构图中显示,给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 Dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑F 将其插值到更高的帧速率,并提高分辨率到 SRt l 为 256 × 256,SRh 为 768 × 768,最后生成高时空分辨率的视频 y^。


Imagen Video Google

Imagen Video是基于最近大火的扩散模型,直接继承图像生成SOTA模型Imagen。

除了分辨率高以外,还展示出三种特别能力。

首先它能理解并生成不同艺术风格的作品,物体的3D结构在旋转展示中不会变形。Imagen Video是一系列模型的集合。语言模型部分是Google自家的T5-XXL,训练好后冻结文本编码器部分。其中,语言模型只负责编码文本特征,把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上,以自回归方式不断预测下一帧,首先生成一个48*24每秒3帧的视频。其从文本提示输入开始到生成视频的流程图如下图所示:

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻

来自源论文:https://imagen.research.google/video/paper.pdf


Phenaki Google

在Phenaki之前,AI模型可以一个具体提示生成一个超短视频,但是无法生成2分钟连贯的视频。Phenaki实现了脑部故事情节,生成2分钟以上视频。

研究人员引入了一个新的因果模型来学习表示视频:将视频视作图像的一个时间序列。该模型基于Transformer,可以将视频分解成离散的小表示,而分解视频则是按照时间的因果顺序来进行的。也就是通过空间Transformer将单个提示进行编码,随后再用因果Transformer将多个编码好的提示串联起来。其流程图如下所示:

行业洞察 | 文本生成视频,Meta、Google哪家更胜一筹? - 天天要闻

来自源论文:https://openreview.net/pdf?id=vOEXS39nOF


文本生成视频所带来的冲击

随着文本生成视频技术的快速发展,未来,各大短视频平台的视频或许不再是真人表演秀,而是合成视频的秀场,这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击。

AI正在革新着各行业,在带来挑战的同时,也带来了更多进步。Stability AI新任首席信息官Daniel Jeffries表示,AI最终会带来更多的工作岗位。任何时候都是挑战与机遇并存,把握时代脉搏就能创造更好的未来。

科技分类资讯推荐

MiniMax发布新一代语音大模型 - 天天要闻

MiniMax发布新一代语音大模型

近日,AI独角兽MiniMax稀宇极智发布新一代语音大模型Speech-02,宣布该模型在国际最权威的两项语音评测榜单Artificial Analysis(全球知名AI基准测试机构)和Hugging Face TTS Arena (抱抱脸
虚假广告、假冒商家肆虐 美元宇宙平台公司监管遭质疑 - 天天要闻

虚假广告、假冒商家肆虐 美元宇宙平台公司监管遭质疑

美国《华尔街日报》近日报道称,美国元宇宙平台公司旗下的“脸书”和“照片墙” 已成为全球诈骗团伙的主要作案平台,虚假广告、假冒商家肆虐,不仅导致用户财产损失惨重,更暴露了美国元宇宙平台公司在内容监管上的系统性漏洞。埃德加·古兹曼是美国亚特兰大郊区一家名为“半价批发”的公司老板,主要销售家装和园艺设备。...
小屏党的春天!小屏旗舰越来越多 这几款尤其出众 - 天天要闻

小屏党的春天!小屏旗舰越来越多 这几款尤其出众

【CNMO科技导购】近年来,越来越多手机厂商开始推出小屏旗舰机型。这一趋势表明,小屏旗舰正在重新受到市场重视。其实早在智能手机刚兴起时,小屏手机也曾是主流。但随着用户对观影、游戏、多任务处理的需求增加,大屏手机逐渐成为主流。然而,大屏虽好,
富士康向印度投资15亿美元 加速提升iPhone及芯片产能 - 天天要闻

富士康向印度投资15亿美元 加速提升iPhone及芯片产能

【CNMO科技消息】据彭博社报道,富士康近日通过其新加坡子公司向印度业务注资15亿美元,此举被广泛认为是其扩大iPhone在印生产的重要一步。随着苹果正将其供应链从中国转移,印度正在逐渐成为其新的制造重镇,而这一轮大规模投资也显示出富士康对
北斗系统新进展!已全面进入 - 天天要闻

北斗系统新进展!已全面进入

作为联合国认可的全球卫星导航系统核心供应商,北斗系统全面进入民航、海事、移动通信等11个国际组织的标准体系,并持续扩大国际“朋友圈”。目前,尼日利亚、突尼斯、塞内加尔等30多个非洲国家已建设北斗CORS站。来源:央视新闻客户端相关阅读北斗卫星导航原理及应用ISBN 978-7-03-080432-7作者:丛佃伟,吕志伟,刘婧北京:...
金力:聚焦“四个最前沿”深化科技体制改革,推动科技创新和产业创新深度融合 - 天天要闻

金力:聚焦“四个最前沿”深化科技体制改革,推动科技创新和产业创新深度融合

习近平总书记4月29日在上海考察时强调,上海承担着建设国际科技创新中心的历史使命,要抢抓机遇,以服务国家战略为牵引,不断增强科技创新策源功能和高端产业引领功能,加快建成具有全球影响力的科技创新高地。“加快”“建成”和“高地”三个词体现了总书记对于上海科技创新发展的高度重视和殷切期盼。复旦大学地处上海,...
微软:AI热潮下 人性特质比以往任何时期都重要 - 天天要闻

微软:AI热潮下 人性特质比以往任何时期都重要

财联社5月20日讯(编辑 史正丞)当地时间周一,微软为期四天的Build 2025开发者大会正式拉开帷幕。数千名面临“AI抢饭碗”冲击的程序员齐聚一堂,聆听“始作俑者”微软的最新构想。在微软CEO纳德拉的揭幕演讲中,最核心的更新是把AI编程助手GitHub Copilot升级成了各位程序员的“同僚”。据微软透露,现在AI助手已经能代表...