Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度

2022年09月30日13:10:23 科技 1973

鱼羊 Alex 发自 凹非寺

量子位 | 公众号 QbitAI

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面?

No,No,No!

视频里的每一帧,都是AI生成的

还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。

不仅能无中生画笔,按着马头喝水也不是不可以。

同样是一句“马儿喝水”,这只AI就抛出了这样的画面:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……

不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

这回是真能“用嘴做视频”了:

AI名为Make-A-Video,直接从DALL·E、Stable Diffusion搞火的静态生成飞升动态。

给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。

不仅纪录片风格能hold住,整点科幻效果也没啥问题。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

文艺小清新的动画风格,看样子Make-A-Video也把握住了。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

而大佬LeCun则意味深长地表示:该来的总是会来的。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:

比我想象中快了9个月。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

甚至还有人表示:我已经有点适应不了AI的进化速度了……

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

文本图像生成模型超进化版

你可能会觉得Make-A-Video是个视频版的DALL·E。

实际上,差不多就是这么回事儿(手动狗头)

前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。

从数据的角度来说,就是DALL·E等静态图像生成模型的训练数据,是成对的文本-图像数据。

而Make-A-Video虽然最终生成的是视频,但并没有专门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。

视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。


具体到模型架构上,Make-A-Video主要由三部分组成:

  • 文本图像生成模型P
  • 时空卷积层和注意力层
  • 用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的:

首先,根据输入文本生成图像嵌入。

然后,解码器Dt生成16帧64×64的RGB图像。

插值网络↑F会对初步结果进行插值,以达到理想帧率。

接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。

基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。

将静态图像转成视频:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

根据前后两张图片生成一段视频:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

根据原视频生成新视频:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

刷新文本视频生成模型SOTA

其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次,Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

One More Thing

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki

生成效果是这样的:

Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度 - 天天要闻

对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

论文地址:
https://makeavideo.studio/Make-A-Video.pdf
参考链接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

比 5G 快 10 倍!你的手机有 5G-A 了吗? - 天天要闻

比 5G 快 10 倍!你的手机有 5G-A 了吗?

最近,不少人发现自己的手机上出现 5G-A 信号。和 5G 相比,5G-A 是什么,会给我们的生活带来什么样的变化?5G-A最直观体验——网速快将推动行业变革5G-A 和 5G 相比,能够在容量、速率、时延、定位、可靠性等方面实现大幅提升,带来更快更优质的通信体验,并有望实现低成本千亿物联。专家表示,目前,我国运营商已经在国内...
集体下架!抖音、微信、淘宝、快手接连公告 - 天天要闻

集体下架!抖音、微信、淘宝、快手接连公告

近日抖音、微信、淘宝、快手等多个平台发布公告拦截、下架一批违规微短剧▼抖音5月9日,“抖音短剧”公众号发布《抖音关于打击违规微短剧的公告》称,抖音致力于打造积极、开放、友善的社区环境,持续推进微短剧内容治理,鼓励和推广优质微短剧,持续对含有不良价值观导向、违反公序良俗、低俗“擦边”等违规内容的微短剧,...
海量财经|李佳琦带妈妈开启直播 闯进3亿银发经济消费蓝海 - 天天要闻

海量财经|李佳琦带妈妈开启直播 闯进3亿银发经济消费蓝海

海报新闻记者 杜郑敏 报道“美衣美食美生活,就来爸妈的幸福家。”近日,李佳琦的全新直播间“所有爸妈的幸福家”正式拉开帷幕。这场以“重返20岁”为主题、持续6小时的银发经济专场直播,最终以超3000万元销售额、超200万观看人次收官。“所有爸妈的幸福家”李佳琦直播间现场不过此次直播的主角倒不是李佳琦,而是他的妈妈...
谷歌被起诉 - 天天要闻

谷歌被起诉

来源:新华社数字地图将墨西哥湾标记为“美国湾” 墨西哥政府起诉谷歌墨西哥总统克劳迪娅·辛鲍姆9日说,就科技巨头谷歌公司在给美国用户的数字地图中把整个墨西哥湾标记为“美国湾”,墨西哥政府已经提起诉讼。辛鲍姆9日在例行记者会上说,墨西哥政府已经提交诉讼申请,要求谷歌公司严格执行美国政府批准的命名,即美方有...
本月就面世!vivo这款新机已爆料这些信息,正面真的很好看! - 天天要闻

本月就面世!vivo这款新机已爆料这些信息,正面真的很好看!

蓝厂vivo今年是真的跟“mini”机型干上了,这不,除了X数字旗舰系列之外,S系列的中端机型也将迎来自家的首款mini机型,聪明如蓝厂,除了为它安排小直屏、大电池之外,处理器也算是跟上了时代的主流,这回,大家应该不会再将它称作是厂妹机了吧?根据坊间爆料,vivo将这款新机命名为vivo S30 Pro mini,跟自家的vivo X200 ...
两大巨头突然“联姻”,电商江湖巨变在即! - 天天要闻

两大巨头突然“联姻”,电商江湖巨变在即!

电商江湖炸锅了!5月7日,中国互联网两大巨头突然宣布联手!2025年5月7日,阿里巴巴旗下的淘宝天猫(下称“淘天”)和小红书宣布“红猫计划”,双方达成战略合作。淘宝天猫和小红书的“红猫计划”,不是什么普通合作,是一场蓄谋已久的战略联姻!
分享 华夏社区预约通道上线首日突破10万人次,各大媒体聚焦报道引发全国热潮 - 天天要闻

分享 华夏社区预约通道上线首日突破10万人次,各大媒体聚焦报道引发全国热潮

2025年5月8日,华夏通讯社 2025年5月7日,华夏社区平台预约通道正式开启,面向全国用户开放注册登记。首日预约人数突破10万人次,创下平台启动以来的首个“硬核里程碑”,并迅速引发社会各界广泛关注。人民网、新华社、央视新闻、光明网、经济日报、凤凰卫视、澎湃新闻等主流媒体纷纷报道此事,肯定其对“全民共富机制探索...
向天图强,蚌埠凭什么? - 天天要闻

向天图强,蚌埠凭什么?

敢立凌云志星海路可攀在蚌埠,开往星辰大海的产业巨轮已经启航。当火箭携着金橙色洪流直冲天际,蚌埠正深度参与这一场云端裂变。
外媒:英伟达将为中国市场推出降级版H20芯片 - 天天要闻

外媒:英伟达将为中国市场推出降级版H20芯片

参考消息网5月10日报道据新加坡《联合早报》网站5月9日报道,美国政府对英伟达的H20人工智能(AI)芯片实施出口限制约一个月后,据报英伟达计划在未来两个月内,为中国市场推出降级版的H20。