按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架

2024年07月01日15:20:16 时尚 3079

mmtryon团队 投稿

量子位 | 公众号 qbitai

多件衣服按指定穿法一键虚拟试穿!

中山大学&字节智创数字人团队提出了一个名为mmtryon的虚拟试穿框架,可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。

比如选中一件大衣、一条裤子,再配一个包,用语言描述穿法,“啪”的一键就穿到了人像上:

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

无论是真人图像又或是漫画人物,都能一键按照搭配试穿衣服。

对于单图换装,mmtryon有效利用了大量的数据设计了一个表征能力强大的服装编码器,使得该方案能处理复杂的换装场景及任意服装款式

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

对于组合换装,mmtryon消除了传统虚拟换装算法中对服装精细分割的依赖,可依靠一条文本指令从多张服装参考图像中选择需要试穿的服装及对应的穿法,生成真实自然的组合换装效果。

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

在基准测试中,mmtryon拿下新sota。

多模态多参考注意机制加持,效果更精确灵活

虚拟换装技术旨在将模特所穿服饰或者衣服的平铺图穿到目标人物身上,达到换装的效果,但是之前虚拟试穿的方案存在一些技术难点没有解决。

首先,现有的方法通常是为单件试穿任务(上衣/下衣、连衣裙)而设计的,并且无法自定义着装风格,例如,外套拉上/拉开拉链、上衣塞入/塞出等。

另外,之前的方案严重依赖特定于类别的分割模型来识别试穿区域,如下图所示如果分割错误则将直接导致试穿结果中出现明显的试穿错误或者伪影等情况。

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

为了解决这些问题,研究团队提出了mmtryon,将参考图像中的服装信息与文本指令中的着装风格信息通过一种新颖的多模态和多参考注意机制来进行表示,这使得该方案支持组合式换装以及多样的试穿风格。

此外,为了消除对分割的依赖性,mmtryon使用了表征能力丰富的服装编码器,并利用新颖的可扩展的数据生成流程增强现有的数据集,这样在推理阶段,mmtryon无需任何分割,仅仅通过文本以及多个试穿对象即可实现高质量虚拟换装。

在开源的数据集以及复杂场景下进行的大量实验在定性和定量上证明了mmtryon优于现有sota方法。

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

接下来是更具体的方法。

首先研究团队预训练了一个服装编码器,在这一stage中mmtryon利用文本作为query,将得到的特征与grouding dino+sam所得到的mask计算一个query损失。

目标是经过text query 后仅激活文本对应区域的特征,这样可以摆脱对于服装分割的依赖。同时,利用大量的pair对更好的编码服装特征。

之后,为了更稳定的训练组合换装,需要多件服装组合式换装的pair图,但是这样的pair图采集成本很高。

为此,研究团队提出了一个基于大模型的数据扩增模式,利用视觉语言模型以及grouding dino+sam去得到了不同区域的mask,来保护对应的上衣或者下衣区域,利用stable diffusion xl去重绘保护区域外剩下的内容,构建了100w的增强数据集,训练中将增强数据集与90w原始数据一起加入训练。

基于增强的数据集以及服装编码器,mmtryon设计了多参考图像注意力模块和多模态图文注意力模块,其中多参考图图像注意力模块用于将多件衣服的特征注入到目标图像来控制多件衣服的试穿,多模态图文注意力模块利用详细的文本与图像的clip编码来控制多样的试穿风格。

可以看到,mmtryon 由于服饰编码器丰富的表征能力,对于各种类型的换装都可以有真实的虚拟试穿效果:

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

无论是真人图像还是挂台服饰,只需要多张服装参考图像及文本,就可以组合式换装并控制换装风格。

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

甚至还能作为一个fashion换装辅助设计来帮你买衣服:

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

在量化指标上,mmtryon优于其他baseline的的效果,在开源数据集测试集合的human evaluation中,mmtryon也超过其它baseline模型

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

在复杂场景的human evaluation中,mmtryon也超越了目前的社区模型outfit anyone。

研究人员收集了复杂场景女装图片142张,男装图片57张,非服装图片87张,共邀请15位参与者参与评测,选择更喜欢的方案结果。从图表中可以看出,mmtryon的效果更受测试者的喜欢。

按需搭配一键叠穿,中山大学&字节智创数字人团队提出虚拟试穿新框架 - 天天要闻

更多细节,感兴趣的家人们可以查看论文~

论文链接:https://arxiv.org/abs/2405.00448

时尚分类资讯推荐

Redmi K80系列曝光强到没朋友:2K直屏、超声波指纹 - 天天要闻

Redmi K80系列曝光强到没朋友:2K直屏、超声波指纹

最新消息显示,Redmi K80和Redmi K80 Pro两款新机已经现身IMEI数据库,预示着这两款备受期待的新机即将在不久的将来正式亮相。IMEI数据库中的信息显示,Redmi K80的型号为24122RKC7C,而Redmi K80 Pro的型号为24127RK2CC。值得一提的是,Redmi K80不仅会在国内市场推出,还将以POCO F7 Pro
亚洲冠军,来自江夏这所学校 - 天天要闻

亚洲冠军,来自江夏这所学校

近日 2024SS亚洲俱乐部邀请赛在香港落幕 来自武汉海淀外国语实验学校 一年级7班的小将张媤琳 在澳洲体操标准四级(Level 4) 组别的赛场上大放异彩 取得高低杠项目冠军 个人全能&平衡木双料亚军的好成绩 赢得了观众与评委的高度赞誉 本次大赛吸引了来自10个地区和国家的42家俱乐部,共计810名顶尖选手同台竞技,规模宏大,...
杨幂的时尚哲学:解锁禁欲系穿搭的魅力 - 天天要闻

杨幂的时尚哲学:解锁禁欲系穿搭的魅力

在娱乐圈的璀璨星空中,杨幂无疑是一颗耀眼的星辰,她不仅以精湛的演技赢得了观众的喜爱,更以独特的时尚品味引领着潮流的风向标。今天,我们就来聊聊杨幂如何巧妙地将禁欲系穿搭演绎得既通俗易懂又不失个性魅力,让每一位读者都能从中汲取灵感,成为自己生活
荣耀MagicBook Art官宣定档7月12日:轻薄刷新行业纪录 - 天天要闻

荣耀MagicBook Art官宣定档7月12日:轻薄刷新行业纪录

站长之家(ChinaZ.com) 7月2日 消息:荣耀今日正式宣布,荣耀Magic旗舰新品发布会将震撼登场,其中最为瞩目的莫过于荣耀MagicBook Art14笔记本旗舰新品。这款被内部亲切称为“荣耀小镁本”的杰作,不仅以其不足980克的极致轻盈,成功超越华为MateBook X Pro,更一举刷新了PC轻薄领域的行业纪录,宣告了荣耀对极致美学与便携性..
研学游成暑期“新顶流” 如何不止于“到此一游”? - 天天要闻

研学游成暑期“新顶流” 如何不止于“到此一游”?

暑假到来,研学游迎来了又一旺季。近年来,这一融“教”于“游”、寓教于乐的旅游新模式,受到广大中小学生和家长的欢迎。热度上去了,但问题也来了,不少家长反映,孩子参加的研学游充其量是“到此一游”。 ....
时尚尚品持续“加码”推新,开启夏日新风尚 - 天天要闻

时尚尚品持续“加码”推新,开启夏日新风尚

近日,各大时尚大牌动作不断,纷纷“加码”启新,或启幕全新精品店,带来限定专属产品;或邀请明星助阵,揭幕系列产品限时展览:或亮相全新产品……一系列动作让原本火热的市场更增添几分火辣。罗意威·成都高宅启幕限定专属产品亮相店铺6月28日,罗意威·成都高宅启幕。该店坐落于成都太古里,总面积673平方米,空间内呈现...