它将尖端的文本到图像生成与手绘草图输入相结合。
输入文字生成图像的AI算法目前大热,OpenAI的Craiyon(以前的DALL-E mini)和谷歌的Imagen AI释放出了由人类和计算机想象力合成的奇妙怪异的程序生成艺术的浪潮。本周二,Meta公司透露,它也开发了一个人工智能图像生成引擎,它希望这将有助于在元宇宙中建立沉浸式的世界,并创造出高级数字艺术。
在使用人工智能生成引擎时,仅凭 "医院里有一匹马 "这句话就能创造出一个图像,这需要大量的工作。首先,这句话本身被送入一个转化器模型,这是一个神经网络,可以解析句子中的单词,并对它们之间的关系形成上下文理解。一旦掌握了用户描述的要点,人工智能将使用一组GAN(生成对抗网络)合成一个新的图像。
由于近年来努力在日益扩大的高清晰度图像集上训练ML模型,并对文本描述进行精心策划,今天最先进的人工智能可以创造出逼真的图像,无论你给它们提供什么胡言乱语。不同的人工智能的具体创造过程是不同的。
Meta AI
例如,谷歌的Imagen使用扩散模型,根据今年6月的一个关键词博客显示:"它学习将随机点的模式转换为图像。这些图像首先从低分辨率开始,然后逐步提高分辨率"。 另一方面,谷歌的Parti人工智能,"首先将一组图像转换为一连串的代码条目,类似于拼图片。然后将一个给定的文本提示翻译成这些代码条目,并创建一个新的图像"。
虽然这些系统可以创建向其描述的大多数东西,但用户对输出图像的具体方面没有任何控制。Meta首席执行官马克-扎克伯格在周二的博客中表:"为了实现人工智能推动创造性表达的潜力,人们应该能够塑造和控制系统生成的内容。"
该公司的 "探索性人工智能研究概念 "被称为Make-A-Scene,正是通过将用户创建的草图纳入其基于文本的图像生成,输出一个2,048 x 2,048像素的图像。这种组合使用户不仅可以描述他们在图像中想要的东西,而且还可以决定图像的整体构成。扎克伯格说:"它展示了人们如何使用文字和简单的图画来更具体地传达他们的愿景,使用各种元素、形式、安排、深度、构图和结构"。
在测试中,一个人类评估小组压倒性地选择了文字加图画的图像,而不是仅有文字的图像,因为它与原始草图的一致性更好(99.54%的时间),与原始文字描述的一致性更好(66%的时间)。为了进一步发展这项技术,Meta公司与包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol在内的知名人工智能艺术家分享其Make-A-Scene演示,他们将使用该系统并提供反馈。目前还没有关于该人工智能何时向公众开放的消息。