Meta公司的研究人员通过Make-A-Video在人工智能艺术生成领域取得了重大飞跃,这项创造性的新技术(你猜对了)只用文字提示就可以制作视频。其结果令人印象深刻,种类繁多,而且无一例外,都略显惊悚。
我们以前见过文本到视频的模型,它是文本到图像模型的自然延伸,如DALL-E,它从提示中输出剧照。但是,虽然从静止图像到移动图像的概念跳跃对人的大脑来说是很小的,但在机器学习模型中实现它却远非易事。
Make-A-Video实际上在后端并没有改变游戏规则,正如研究人员在描述它的论文中指出的那样:“一个只见过描述图像的文本的模型在生成短视频方面令人惊讶地有效。”
人工智能使用现有的和有效的扩散技术来创建图像,这基本上是从纯视觉静态“去噪”,向目标提示的方向逆向工作。这里要补充的是,该模型还在一堆无标签的视频内容上得到了无监督的训练(即它自己检查数据,没有来自人类的强烈指导)。
它从第一项中知道的是如何制作一个真实的图像;它从第二项中知道的是视频的连续帧是什么样子。令人惊讶的是,它能够非常有效地将这些东西放在一起,而不需要特别训练它们应该如何组合。
研究人员写道:“在空间和时间分辨率、对文本的忠实度和质量等所有方面,Make-A-Video都为文本到视频的生成设定了新的先进水平,这是由定性和定量措施决定的”。
这很难不令人同意。以前的文本-视频系统使用了一种不同的方法,其结果并不令人印象深刻,却让人们看到了希望。现在,Make-A-Video把它们上升到了一个新高度,实现了与也许18个月前的原始DALL-E或其他上一代系统的图像一致的保真度。
但必须说的是,他们肯定还是有些不对劲。并不是说我们应该期待逼真的效果或完全自然的运动,但结果都有一种......嗯,没有别的词可以形容——它们有点像梦魇,不是吗?
它们的质量有点可怕,真的像梦魇。运动的质量很奇怪,好像是一部定格动画电影。腐败和人工制品给了每件作品一种毛茸茸的超现实的感觉,就像物体要融化掉一样。人们相互融合,对物体的边界没有理解,也不知道什么东西应该终止于或接触。
我说这些并不是作为某种人工智能势利眼,只想得到最好的高清逼真图像。我只是认为,无论这些视频在某种意义上是多么逼真,它们在其他方面都是如此怪异和令人反感,这很吸引人。它们可以快速、任意地生成,这令人难以置信,而且只会越来越好。但是,即使是最好的图像生成器也仍然有那种超现实的质量,让人难以琢磨。
Make-A-Video还允许将静止的图像和其他视频转化为其变体或扩展,就像图像生成器也可以对图像本身进行提示。其结果是稍微不那么令人不安。
这确实是比以前存在AI工具有一个巨大的进步,该团队应该受到点赞。它还没有向公众开放,但你可以先注册申请,以便加入他们以后决定的任何访问形式的名单。