谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格

2022年07月05日02:47:18 科技 1105

谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



近日,谷歌介绍了一种自回归文本到图像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可实现高保真照片级图像输出,并支持涉及复杂构图和丰富知识内容的合成。


比如,用文字描述“一只浣熊穿着正装,拿着拐杖和垃圾袋”和“老虎戴着火车售票员的帽子,拿着一块带有阴阳符号的滑板”,就能分别生成类似如下图片。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




除了细节栩栩如生外,对于各种风格,Parti 也是驾轻就熟,能够根据描述生成梵高、抽象立体主义、埃及墓象形文字、插图、雕像、木刻、儿童蜡笔画、中国水墨画等多种多样风格的画作。


6 月 22 日,相关研究论文以《缩放自回归模型以实现内容丰富的文本到图像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在arXiv 上。


研究人员在谷歌官方博文表示:“用 Parti 输出图像是一个序列到序列的建模问题,与机器翻译相似。因此可受益于大语言模型的进步,特别是通过扩展数据和模型大小来解锁的功能。此外,目标输出是图像标记序列,而不是其他语言中的文本标记。并利用图像分词器 ViT-VQGAN 将图像编码为离散标记序列,以重建成高质量、风格多样化的图像。”


值得一提的是,谷歌在一个多月前推出的另一个文本到图像生成模型 Imagen,在研究基准上也表现得十分亮眼。Parti 和 Imagen 分别是自回归模型和扩散模型,两者不同但互补,代表了谷歌的不同探索方向。


此外,研究人员还探索并突出了 Parti 模型的局限性,给出了进一步改进的关键示例重点领域。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




然后,他们还训练了 3.5 亿、7.5 亿、30 亿和 200 亿参数四个版本的 Parti,并将它们进行了详细比较,参数越大的模型在功能和输出图像质量方面有着实质性改进。在比较 30 亿和 200 亿参数的 Parti 时,发现后者更擅长抽象的提示。


下面是四个模型对“一个绿色的标志,上面写着 Very Deep Learning,位于大峡谷的边缘,天空中有浮起的白云”图片生成效果。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




Parti 要想识别冗长而复杂的提示,需要它准确反映世界知识、遵守特定的图像格式和样式,并通过细粒度的细节和交互组成众多参与者和对象,进而输出高质量的图像。但该模型存在的一定局限性,仍会让其生成一些故障示例。


比如说按照如下文字生成图像:“一幅阿努比斯雕像的肖像,穿着一件黄色的 T 恤,上面画着一架航天飞机,背景中有一面白色的砖墙。”输出的图像中航天飞机在墙上,而不是 T 恤,颜色也有所渗出。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | 故障图像(来源:谷歌)




值得一提的是,本次研究人员还采用一种新的测试基准 PartiPrompts(简称 P2),该基准可从各种类别和挑战方面来衡量模型的能力。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | PartiPrompts 基准(来源:arXiv)




然后,研究人员表示,用文本生成图像非常有趣,它允许我们创建从未见过甚至不存在的场景。但这带来许多益处的同时,也存在一定风险,并对偏见和安全、视觉传达、虚假信息,以及创造力和艺术产生潜在影响。


此外,一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。像 Parti 这样的模型,通常是在嘈杂的图像文本数据集上进行训练的。这些数据集已知包含对不同背景的人的偏见,从而导致 Parti 等模型产生刻板印象。比如,在将模型应用于视觉传达(例如帮助低识字率的社会群体输出图片)等用途时,会带来额外的风险和担忧。


文本到图像模型为人们创造了许多新的可能性,本质上是充当画笔创造独特且美观的图像,可助力提高人类的创造力和生产力。但模型的输出范围取决于训练数据,这可能会偏向西方图像,并进一步阻止模型表现出全新的艺术风格。


出于以上原因,研究人员在没有进一步保护措施的情况下,暂时不会发布 Parti 模型的代码或数据供公众使用。并在已生成的所有图像上添加了“Parti”水印。


接下来,研究团队将专注于进一步研究模型偏差测量和缓解策略,例如提示滤波、输出滤波和模型重新校准。


他们还认为,有望使用文本到图像生成模型来大规模理解大型图像文本数据集中的偏差,方法是明确探测它们是否存在一套已知的偏差类型,并可能揭示其他形式的隐藏偏差。另外,研究人员还计划与艺术家合作,使高性能文本到图像生成模型的功能适应其作品。


最后,相比前段时间 OpenAI 发布的 DALL·E 2 和谷歌自家的 Imagen(两者都是扩散模型),研究人员提到,Parti 表明自回归模型功能强大且普遍适用。


-End-


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



参考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

科技分类资讯推荐

特斯拉中国宣布:涨价 - 天天要闻

特斯拉中国宣布:涨价

(文/观察者网周盛明 编辑/高莘)2025年7月1日,特斯拉中国宣布,Model 3长续航全轮驱动版车型售价上涨1万元,至28.55万元。 特斯拉中国 在涨价的同时,该车型的续航和加速得到了提升——CLTC续航由713km提升至753km,百公里加速时间由4.4秒提升至3.8秒。值得注意的是,特斯拉Model 3的其他两个版本售价不变。Model 3后轮驱.
储能与锂电领域动态频出:巨头竞逐、项目签约与跨界调整并行 - 天天要闻

储能与锂电领域动态频出:巨头竞逐、项目签约与跨界调整并行

【环球网财经综合报道】近期,储能与锂电领域动态不断。阳光电源(300274.SZ)与宁德时代(300750.SZ)围绕第三代储能电芯定义权展开激烈争夺。6月,阳光电源发布搭载684Ah电芯的新款储能系统,电芯由欣旺达供应;宁德时代宣布587Ah电芯于4月投产。当前储能行业处于二代向三代电芯过渡期,二代容量为314Ah,两大阵营分化明...
亚马逊CEO:生成式AI或致员工数量减少,但也将带来新机遇 - 天天要闻

亚马逊CEO:生成式AI或致员工数量减少,但也将带来新机遇

【环球网财经综合报道】亚马逊CEO安迪·贾西周一表示,生成式人工智能的快速推出,意味着公司未来或需更少员工完成计算机可处理的工作,如同每次技术转型,一些工作将因自动化而用人减少,但也会有新工作产生。东方IC尽管人工智能会消除部分职位需求,贾西称亚马逊仍会在人工智能、机器人等领域招聘更多员工。不过,本月早...
25万起售的小米YU7,三分钟大定20万台,数据是真的吗? - 天天要闻

25万起售的小米YU7,三分钟大定20万台,数据是真的吗?

相信这几天小米YU7的火爆程度大家都看到了,这款车发布后开启预定,打开预定通道后不久,小米官方就公布了一个数据,3分钟大定超20万台。没过多久,小米官方又公布了一个更炸裂的数据,小米YU7在1小时内,大定已突破289000万台。
邹晖出任格力集团董事长 - 天天要闻

邹晖出任格力集团董事长

本文来源:时代财经 珠海格力集团官网更新信息显示,邹晖已正式出任该集团党委书记、董事长。公开资料显示,邹晖于1982年生,本科学历。邹晖曾担任珠海市人大常委会农村农业工作委员会副主任,后转任珠海市国资委副主任。此次调整后,格力集团领导班子为:邹晖担任集团党委书记、董事长,王轶任党委副书记、董事、总裁,吴...
【产业互联网周报】阿里合伙人名单最新变动:9人已退出;美团在AI投入超百亿元;黄仁勋:机器人技术是芯片制造商继AI之后的最大机遇 - 天天要闻

【产业互联网周报】阿里合伙人名单最新变动:9人已退出;美团在AI投入超百亿元;黄仁勋:机器人技术是芯片制造商继AI之后的最大机遇

图片系AI生成【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】国内资讯北京经信局:北京累计备案上线大模型132款,全国占比35%在2025全球数字经济大会新闻发布会上,北京市经济和信息化局党组成员、副局长、新闻发言人刘维亮表示,...