谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格

2022年07月05日02:47:18 科技 1105

谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



近日,谷歌介绍了一种自回归文本到图像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可实现高保真照片级图像输出,并支持涉及复杂构图和丰富知识内容的合成。


比如,用文字描述“一只浣熊穿着正装,拿着拐杖和垃圾袋”和“老虎戴着火车售票员的帽子,拿着一块带有阴阳符号的滑板”,就能分别生成类似如下图片。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




除了细节栩栩如生外,对于各种风格,Parti 也是驾轻就熟,能够根据描述生成梵高、抽象立体主义、埃及墓象形文字、插图、雕像、木刻、儿童蜡笔画、中国水墨画等多种多样风格的画作。


6 月 22 日,相关研究论文以《缩放自回归模型以实现内容丰富的文本到图像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在arXiv 上。


研究人员在谷歌官方博文表示:“用 Parti 输出图像是一个序列到序列的建模问题,与机器翻译相似。因此可受益于大语言模型的进步,特别是通过扩展数据和模型大小来解锁的功能。此外,目标输出是图像标记序列,而不是其他语言中的文本标记。并利用图像分词器 ViT-VQGAN 将图像编码为离散标记序列,以重建成高质量、风格多样化的图像。”


值得一提的是,谷歌在一个多月前推出的另一个文本到图像生成模型 Imagen,在研究基准上也表现得十分亮眼。Parti 和 Imagen 分别是自回归模型和扩散模型,两者不同但互补,代表了谷歌的不同探索方向。


此外,研究人员还探索并突出了 Parti 模型的局限性,给出了进一步改进的关键示例重点领域。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




然后,他们还训练了 3.5 亿、7.5 亿、30 亿和 200 亿参数四个版本的 Parti,并将它们进行了详细比较,参数越大的模型在功能和输出图像质量方面有着实质性改进。在比较 30 亿和 200 亿参数的 Parti 时,发现后者更擅长抽象的提示。


下面是四个模型对“一个绿色的标志,上面写着 Very Deep Learning,位于大峡谷的边缘,天空中有浮起的白云”图片生成效果。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

(来源:谷歌)




Parti 要想识别冗长而复杂的提示,需要它准确反映世界知识、遵守特定的图像格式和样式,并通过细粒度的细节和交互组成众多参与者和对象,进而输出高质量的图像。但该模型存在的一定局限性,仍会让其生成一些故障示例。


比如说按照如下文字生成图像:“一幅阿努比斯雕像的肖像,穿着一件黄色的 T 恤,上面画着一架航天飞机,背景中有一面白色的砖墙。”输出的图像中航天飞机在墙上,而不是 T 恤,颜色也有所渗出。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | 故障图像(来源:谷歌)




值得一提的是,本次研究人员还采用一种新的测试基准 PartiPrompts(简称 P2),该基准可从各种类别和挑战方面来衡量模型的能力。



谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

图 | PartiPrompts 基准(来源:arXiv)




然后,研究人员表示,用文本生成图像非常有趣,它允许我们创建从未见过甚至不存在的场景。但这带来许多益处的同时,也存在一定风险,并对偏见和安全、视觉传达、虚假信息,以及创造力和艺术产生潜在影响。


此外,一些潜在的风险与模型本身的开发方式有关,对于训练数据尤其如此。像 Parti 这样的模型,通常是在嘈杂的图像文本数据集上进行训练的。这些数据集已知包含对不同背景的人的偏见,从而导致 Parti 等模型产生刻板印象。比如,在将模型应用于视觉传达(例如帮助低识字率的社会群体输出图片)等用途时,会带来额外的风险和担忧。


文本到图像模型为人们创造了许多新的可能性,本质上是充当画笔创造独特且美观的图像,可助力提高人类的创造力和生产力。但模型的输出范围取决于训练数据,这可能会偏向西方图像,并进一步阻止模型表现出全新的艺术风格。


出于以上原因,研究人员在没有进一步保护措施的情况下,暂时不会发布 Parti 模型的代码或数据供公众使用。并在已生成的所有图像上添加了“Parti”水印。


接下来,研究团队将专注于进一步研究模型偏差测量和缓解策略,例如提示滤波、输出滤波和模型重新校准。


他们还认为,有望使用文本到图像生成模型来大规模理解大型图像文本数据集中的偏差,方法是明确探测它们是否存在一套已知的偏差类型,并可能揭示其他形式的隐藏偏差。另外,研究人员还计划与艺术家合作,使高性能文本到图像生成模型的功能适应其作品。


最后,相比前段时间 OpenAI 发布的 DALL·E 2 和谷歌自家的 Imagen(两者都是扩散模型),研究人员提到,Parti 表明自回归模型功能强大且普遍适用。


-End-


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻



参考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789


谷歌发布文字生成图像模型,新系统Parti根据文本输出各种风格 - 天天要闻

科技分类资讯推荐

获巨额云计算合同!甲骨文股价创新高 - 天天要闻

获巨额云计算合同!甲骨文股价创新高

智通财经APP获悉,甲骨文(ORCL.US)表示,该公司已签署一项年收入高达300亿美元的单一云计算服务合同,这一金额已超过其当前整个云基础设施业务的规模。受该消息推动,甲骨文股价周一早盘一度上涨8.6%,创下盘中历史新高,收盘涨近4%。今年以来,甲骨文股价已累计上涨约32%。甲骨文在周一提交的一份监管文件中披露,这笔收入...
中金:运营商配合意愿亟待提升 eSIM热度有望重启 - 天天要闻

中金:运营商配合意愿亟待提升 eSIM热度有望重启

智通财经APP获悉,中金发布研报称,根据GSMA Intelligence预测,至2025年底,全球预计将有约10亿eSIM智能手机连接,2030年将增长至69亿,随着消费电子轻薄化、可穿戴设备以及物联网终端漫游需求增加,eSIM的应用有望在2025年加速。但eSIM的应用落地仍面临运营商配合意愿度不高的阻力,支持终端数量有限。eSIM卡具备小尺寸、...
网易腾讯发布暑期限玩日历:未成年人每周限玩3小时 - 天天要闻

网易腾讯发布暑期限玩日历:未成年人每周限玩3小时

随着暑期来临,未成年人网络使用需求显著上升。为防止未成年人沉迷游戏,6月30日,网易游戏、腾讯游戏分别发布了2025年暑期未成年人限玩日历(7月1日-8月31日),两家企业均采取严格时段限制措施,规则基本一致。
“闪灯即推+边推边开”!太原机场开启高效运行新模式 - 天天要闻

“闪灯即推+边推边开”!太原机场开启高效运行新模式

近日,东航MU5273航班在T2站坪顺利完成“闪灯即推+边推边开”新流程操作,这标志着航空器地面高效运行新模式在太原国际机场有限责任公司正式投入应用。资料图 据介绍,太原机场公司二跑道预计在2025年底正式投运。经模拟机测算,航空器地面滑行距离、滑行时间将显著增加。不仅直接冲击航班正常性,也将极大影响机场整体运行...
特斯拉官宣Model 3长续航全轮驱动版28.55万起售 - 天天要闻

特斯拉官宣Model 3长续航全轮驱动版28.55万起售

7月1日,特斯拉官方微博宣布Model 3长续航全轮驱动版车型升级,CLTC续航升至753公里,百公里加速升至3.8秒,售价28.55万元起。特斯拉表示,7月31日(含)前下单,还可享8000元限时保险补贴、5年0息、8000元车漆选装金等购车优惠政策。...
央视新闻报道:全国加能站充电桩配置率达45% - 天天要闻

央视新闻报道:全国加能站充电桩配置率达45%

报名 | 扫描上图二维码,锁定超级沙龙重庆站席位 产品 | 扫描上方二维码提交需求 可高效对接 本文来源 | 中国石油石化6月28日,2025能源产业生态论坛在北京召开。论坛上发布了《中国加油(能)站发展蓝皮书2024-2025》,数据显示,当前,传统加油站正从单一能源供给,向综合服务生态深度转型。《蓝皮书》显示,截至2024年底...
韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望 - 天天要闻

韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望

最近,北大韦神韦东奕又“霸屏”了。这位北京大学助理教授、数学科学学院微分方程教研室研究员,因开通个人网络账号,两天涨粉两千万。这是什么概念?一般头部网络主播,即便有团队共同打造账号,要涨粉两千万,没有几年时间也难以达成。这说明什么?