谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格

2022年07月05日02:47:18 科技 1105

谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



近日,谷歌介绍了一种自回归文本到图像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可实现高保真照片级图像输出,并支持涉及复杂构图和丰富知识内容的合成。


比如,用文字描述“一只浣熊穿着正装,拿着拐杖和垃圾袋”和“老虎戴着火车售票员的帽子,拿着一块带有阴阳符号的滑板”,就能分别生成类似如下图片。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




除了细节栩栩如生外,对于各种风格,Parti 也是驾轻就熟,能够根据描述生成梵高、抽象立体主义、埃及墓象形文字、插图、雕像、木刻、儿童蜡笔画、中国水墨画等多种多样风格的画作。


6 月 22 日,相关研究论文以《缩放自回归模型以实现内容丰富的文本到图像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在arXiv 上。


研究人员在谷歌官方博文表示:“用 Parti 输出图像是一个序列到序列的建模问题,与机器翻译相似。因此可受益于大语言模型的进步,特别是通过扩展数据和模型大小来解锁的功能。此外,目标输出是图像标记序列,而不是其他语言中的文本标记。并利用图像分词器 ViT-VQGAN 将图像编码为离散标记序列,以重建成高质量、风格多样化的图像。”


值得一提的是,谷歌在一个多月前推出的另一个文本到图像生成模型 Imagen,在研究基准上也表现得十分亮眼。Parti 和 Imagen 分别是自回归模型和扩散模型,两者不同但互补,代表了谷歌的不同探索方向。


此外,研究人员还探索并突出了 Parti 模型的局限性,给出了进一步改进的关键示例重点领域。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




然后,他们还训练了 3.5 亿、7.5 亿、30 亿和 200 亿参数四个版本的 Parti,并将它们进行了详细比较,参数越大的模型在功能和输出图像质量方面有着实质性改进。在比较 30 亿和 200 亿参数的 Parti 时,发现后者更擅长抽象的提示。


下面是四个模型对“一个绿色的标志,上面写着 Very Deep Learning,位于大峡谷的边缘,天空中有浮起的白云”图片生成效果。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




Parti 要想识别冗长而复杂的提示,需要它准确反映世界知识、遵守特定的图像格式和样式,并通过细粒度的细节和交互组成众多参与者和对象,进而输出高质量的图像。但该模型存在的一定局限性,仍会让其生成一些故障示例。


比如说按照如下文字生成图像:“一幅阿努比斯雕像的肖像,穿着一件黄色的 T 恤,上面画着一架航天飞机,背景中有一面白色的砖墙。”输出的图像中航天飞机在墙上,而不是 T 恤,颜色也有所渗出。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | 故障图像(来源:谷歌)




值得一提的是,本次研究人员还采用一种新的测试基准 PartiPrompts(简称 P2),该基准可从各种类别和挑战方面来衡量模型的能力。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | PartiPrompts 基准(来源:arXiv)




然后,研究人员表示,用文本生成图像非常有趣,它允许我们创建从未见过甚至不存在的场景。但这带来许多益处的同时,也存在一定风险,并对偏见和安全、视觉传达、虚假信息,以及创造力和艺术产生潜在影响。


此外,一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。像 Parti 这样的模型,通常是在嘈杂的图像文本数据集上进行训练的。这些数据集已知包含对不同背景的人的偏见,从而导致 Parti 等模型产生刻板印象。比如,在将模型应用于视觉传达(例如帮助低识字率的社会群体输出图片)等用途时,会带来额外的风险和担忧。


文本到图像模型为人们创造了许多新的可能性,本质上是充当画笔创造独特且美观的图像,可助力提高人类的创造力和生产力。但模型的输出范围取决于训练数据,这可能会偏向西方图像,并进一步阻止模型表现出全新的艺术风格。


出于以上原因,研究人员在没有进一步保护措施的情况下,暂时不会发布 Parti 模型的代码或数据供公众使用。并在已生成的所有图像上添加了“Parti”水印。


接下来,研究团队将专注于进一步研究模型偏差测量和缓解策略,例如提示滤波、输出滤波和模型重新校准。


他们还认为,有望使用文本到图像生成模型来大规模理解大型图像文本数据集中的偏差,方法是明确探测它们是否存在一套已知的偏差类型,并可能揭示其他形式的隐藏偏差。另外,研究人员还计划与艺术家合作,使高性能文本到图像生成模型的功能适应其作品。


最后,相比前段时间 OpenAI 发布的 DALL·E 2 和谷歌自家的 Imagen(两者都是扩散模型),研究人员提到,Parti 表明自回归模型功能强大且普遍适用。


-End-


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



参考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

科技分类资讯推荐

特斯拉官宣Model 3长续航全轮驱动版28.55万起售 - 天天要闻

特斯拉官宣Model 3长续航全轮驱动版28.55万起售

7月1日,特斯拉官方微博宣布Model 3长续航全轮驱动版车型升级,CLTC续航升至753公里,百公里加速升至3.8秒,售价28.55万元起。特斯拉表示,7月31日(含)前下单,还可享8000元限时保险补贴、5年0息、8000元车漆选装金等购车优惠政策。...
央视新闻报道:全国加能站充电桩配置率达45% - 天天要闻

央视新闻报道:全国加能站充电桩配置率达45%

报名 | 扫描上图二维码,锁定超级沙龙重庆站席位 产品 | 扫描上方二维码提交需求 可高效对接 本文来源 | 中国石油石化6月28日,2025能源产业生态论坛在北京召开。论坛上发布了《中国加油(能)站发展蓝皮书2024-2025》,数据显示,当前,传统加油站正从单一能源供给,向综合服务生态深度转型。《蓝皮书》显示,截至2024年底...
韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望 - 天天要闻

韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望

最近,北大韦神韦东奕又“霸屏”了。这位北京大学助理教授、数学科学学院微分方程教研室研究员,因开通个人网络账号,两天涨粉两千万。这是什么概念?一般头部网络主播,即便有团队共同打造账号,要涨粉两千万,没有几年时间也难以达成。这说明什么?
厉害!荣耀400系列三周激活量超70万台 - 天天要闻

厉害!荣耀400系列三周激活量超70万台

上周行业消息显示荣耀400系列全球激活量已经突破100万台,还引起了行业的热议。大家都在讲这一次荣耀400系列的销量确实牛,市场认可度确实高。不过当时给出的是全球数据,并不知道国内与海外的占比。
YU7销量为何没受前段时间小米负面的影响? - 天天要闻

YU7销量为何没受前段时间小米负面的影响?

为什么前段时间小米负面不断,但是现在SU7发布之后,一样是卖爆了呢?其实我之前就说过了,这些负面不会影响到小米的销量。互联网是健忘的。之前那个小米手机发生高速车祸,很多人在说小米的自驾问题。但是实际上大家要明白,真正会去买小米这个汽车的人,他们的侧重点是什么?
华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量 - 天天要闻

华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量

快科技6月30日消息,华为今日正式发布新一代OceanStor Dorado 3000融合全闪存存储。最大支持2 TB内存、1600块SSD,提供高达8 PiB(‌1PiB=1024TB)可用容量,单系统最大可扩展到16个控制器。具有以下三大优势:全新融合:华为新一代OceanStor Dorado 3000采用原生块、文件、对象并行架构,一套存储满足多种业