谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像

2022年07月05日01:14:18 科技 1871

近日,谷歌介绍了一种自回归文本到图像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可实现高保真照片级图像输出,并支持涉及复杂构图和丰富知识内容的合成。

比如,用文字描述“一只浣熊穿着正装,拿着拐杖和垃圾袋”和“老虎戴着火车售票员的帽子,拿着一块带有阴阳符号的滑板”,就能分别生成类似如下图片。

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

(来源:谷歌)

除了细节栩栩如生外,对于各种风格,Parti 也是驾轻就熟,能够根据描述生成梵高、抽象立体主义、埃及墓象形文字、插图、雕像、木刻、儿童蜡笔画、中国水墨画等多种多样风格的画作。

6 月 22 日,相关研究论文以《缩放自回归模型以实现内容丰富的文本到图像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在 arXiv 上。

研究人员在谷歌官方博文表示:“用 Parti 输出图像是一个序列到序列的建模问题,与机器翻译相似。因此可受益于大语言模型的进步,特别是通过扩展数据和模型大小来解锁的功能。此外,目标输出是图像标记序列,而不是其他语言中的文本标记。并利用图像分词器 ViT-VQGAN 将图像编码为离散标记序列,以重建成高质量、风格多样化的图像。”

值得一提的是,谷歌在一个多月前推出的另一个文本到图像生成模型 Imagen,在研究基准上也表现得十分亮眼。Parti 和 Imagen 分别是自回归模型和扩散模型,两者不同但互补,代表了谷歌的不同探索方向。

此外,研究人员还探索并突出了 Parti 模型的局限性,给出了进一步改进的关键示例重点领域。

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

(来源:谷歌)

然后,他们还训练了 3.5 亿、7.5 亿、30 亿和 200 亿参数四个版本的 Parti,并将它们进行了详细比较,参数越大的模型在功能和输出图像质量方面有着实质性改进。在比较 30 亿和 200 亿参数的 Parti 时,发现后者更擅长抽象的提示。

下面是四个模型对“一个绿色的标志,上面写着 Very Deep Learning,位于大峡谷的边缘,天空中有浮起的白云”图片生成效果。

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

(来源:谷歌)

Parti 要想识别冗长而复杂的提示,需要它准确反映世界知识、遵守特定的图像格式和样式,并通过细粒度的细节和交互组成众多参与者和对象,进而输出高质量的图像。但该模型存在的一定局限性,仍会让其生成一些故障示例。

比如说按照如下文字生成图像:“一幅阿努比斯雕像的肖像,穿着一件黄色的 T 恤,上面画着一架航天飞机,背景中有一面白色的砖墙。”输出的图像中航天飞机在墙上,而不是 T 恤,颜色也有所渗出。

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

图 | 故障图像(来源:谷歌)

值得一提的是,本次研究人员还采用一种新的测试基准 PartiPrompts(简称 P2),该基准可从各种类别和挑战方面来衡量模型的能力。

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

图 | PartiPrompts 基准(来源:arXiv)

然后,研究人员表示,用文本生成图像非常有趣,它允许我们创建从未见过甚至不存在的场景。但这带来许多益处的同时,也存在一定风险,并对偏见和安全、视觉传达、虚假信息,以及创造力和艺术产生潜在影响。

此外,一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。像 Parti 这样的模型,通常是在嘈杂的图像文本数据集上进行训练的。这些数据集已知包含对不同背景的人的偏见,从而导致 Parti 等模型产生刻板印象。比如,在将模型应用于视觉传达(例如帮助低识字率的社会群体输出图片)等用途时,会带来额外的风险和担忧。

文本到图像模型为人们创造了许多新的可能性,本质上是充当画笔创造独特且美观的图像,可助力提高人类的创造力和生产力。但模型的输出范围取决于训练数据,这可能会偏向西方图像,并进一步阻止模型表现出全新的艺术风格。

出于以上原因,研究人员在没有进一步保护措施的情况下,暂时不会发布 Parti 模型的代码或数据供公众使用。并在已生成的所有图像上添加了“Parti”水印。

接下来,研究团队将专注于进一步研究模型偏差测量和缓解策略,例如提示滤波、输出滤波和模型重新校准。

他们还认为,有望使用文本到图像生成模型来大规模理解大型图像文本数据集中的偏差,方法是明确探测它们是否存在一套已知的偏差类型,并可能揭示其他形式的隐藏偏差。另外,研究人员还计划与艺术家合作,使高性能文本到图像生成模型的功能适应其作品。

最后,相比前段时间 OpenAI 发布的 DALL·E 2 和谷歌自家的 Imagen(两者都是扩散模型),研究人员提到,Parti 表明自回归模型功能强大且普遍适用。

-End-

参考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789

谷歌再次发布文字生成图像模型,新系统Parti根据文本输出各种风格、更高质量图像 - 天天要闻

科技分类资讯推荐

苹果宣布macOS 15 Sequoia将取消双倍存储空间要求 - 天天要闻

苹果宣布macOS 15 Sequoia将取消双倍存储空间要求

【环球网科技综合报道】6月26日消息,苹果公司近日更新了其支持文档,宣布从即将推出的macOS 15 Sequoia系统开始,下载和安装应用程序将不再需要双倍的本地可用存储空间。这一变化将大大改善用户在安装大型应用程序,尤其是大型游戏时的体
苹果发布全系列AirPods及Beats耳机固件更新 - 天天要闻

苹果发布全系列AirPods及Beats耳机固件更新

【环球网科技综合报道】6月26日消息,苹果公司今日宣布为其多款音频产品推出固件更新,涵盖了从AirPods Pro 2到Beats Fit Pro的多个型号。此次更新旨在提升用户体验,通过错误修复和其他改进来增强设备的性能和稳定性。
7月首款新机官宣:7月3日,正式发布 - 天天要闻

7月首款新机官宣:7月3日,正式发布

大家好!这是属于我们的时刻!通过各种秘密渠道获悉,7月3日将迎来一次科技界的巨变。一款备受期待、始料未及的首款新机即将横空出世!相信你们的心都在狂跳不已,对吧?别急,我来告诉你们一切,使你们更加心潮澎湃!超强性能,搅动市场炫酷外观,惊艳至极
Counterpoint 发 618 手机战报:华为同比增42.4%、vivo 增 12.6% - 天天要闻

Counterpoint 发 618 手机战报:华为同比增42.4%、vivo 增 12.6%

IT之家 6 月 26 日消息,市场调查机构 Counterpoint Research 昨日发布报告,表示 618 购物节期间(2024 年第 21 周至第 24 周),中国智能手机销量同比增长 6.8%。今年的 618 购物节从 5 月 20 日持续到 6 月 20 日,持续时间比往年更长,IT之家简要介绍下各家手机厂商的情况如下:华为主要得益于市场对其
上海机场货邮吞吐中11%是跨境电商货,“带电”和美妆类,收运方式有突破 - 天天要闻

上海机场货邮吞吐中11%是跨境电商货,“带电”和美妆类,收运方式有突破

对“带电”(指含锂电池的货物如蓝牙耳机等)、美妆等跨境电商货物,上海机场口岸正式开启便利化收运方式,以助力货物高效出口。日前,东航物流CK223航班搭载着70吨跨境电商货物自浦东机场起飞,前往美国洛杉矶,成为首个享受该便利举措的航班。随后,又有卡塔尔航空、长荣航空等中外航司,携“带电”货物陆续出运。中外航...
除尘耐磨弯头基础知识 - 天天要闻

除尘耐磨弯头基础知识

除尘耐磨弯头是专为工业除尘系统设计的一种特殊管道配件,其主要特点是具有极高的耐磨性,以适应高磨损环境,如钢铁厂、水泥厂和燃煤发电厂的粉尘输送系统。
一“探”到底,江铃大道敢探者带你探秘未知! - 天天要闻

一“探”到底,江铃大道敢探者带你探秘未知!

随着夏日脚步的加快,凉爽的微风和灿烂的阳光为热衷户外探险的心灵注入了新的活力。秉持着夏日探险的激情,江铃大道敢探者,这款杰出的硬核跨界大皮卡,凭借其卓越的性能和华丽的配置,一经推出,便迅速成为越野爱好者与汽车消费者关注的焦点。