按需搭配一鍵疊穿,中山大學&位元組智創數字人團隊提出虛擬試穿新框架

mmtryon團隊 投稿

量子位 | 公眾號 qbitai

多件衣服按指定穿法一鍵虛擬試穿!

中山大學&位元組智創數字人團隊提出了一個名為mmtryon的虛擬試穿框架,可以通過輸入多個服裝圖像及指定穿法的文本指令來生成高質量的組合試穿結果。

比如選中一件大衣、一條褲子,再配一個包,用語言描述穿法,「啪」的一鍵就穿到了人像上:

無論是真人圖像又或是漫畫人物,都能一鍵按照搭配試穿衣服。

對於單圖換裝,mmtryon有效利用了大量的數據設計了一個表徵能力強大的服裝編碼器,使得該方案能處理複雜的換裝場景及任意服裝款式

對於組合換裝,mmtryon消除了傳統虛擬換裝算法中對服裝精細分割的依賴,可依靠一條文本指令從多張服裝參考圖像中選擇需要試穿的服裝及對應的穿法,生成真實自然的組合換裝效果。

在基準測試中,mmtryon拿下新sota。

多模態多參考注意機制加持,效果更精確靈活

虛擬換裝技術旨在將模特所穿服飾或者衣服的平鋪圖穿到目標人物身上,達到換裝的效果,但是之前虛擬試穿的方案存在一些技術難點沒有解決。

首先,現有的方法通常是為單件試穿任務(上衣/下衣、連衣裙)而設計的,並且無法自定義着裝風格,例如,外套拉上/拉開拉鏈、上衣塞入/塞出等。

另外,之前的方案嚴重依賴特定於類別的分割模型來識別試穿區域,如下圖所示如果分割錯誤則將直接導致試穿結果中出現明顯的試穿錯誤或者偽影等情況。

為了解決這些問題,研究團隊提出了mmtryon,將參考圖像中的服裝信息與文本指令中的着裝風格信息通過一種新穎的多模態和多參考注意機制來進行表示,這使得該方案支持組合式換裝以及多樣的試穿風格。

此外,為了消除對分割的依賴性,mmtryon使用了表徵能力豐富的服裝編碼器,並利用新穎的可擴展的數據生成流程增強現有的數據集,這樣在推理階段,mmtryon無需任何分割,僅僅通過文本以及多個試穿對象即可實現高質量虛擬換裝。

在開源的數據集以及複雜場景下進行的大量實驗在定性和定量上證明了mmtryon優於現有sota方法。

接下來是更具體的方法。

首先研究團隊預訓練了一個服裝編碼器,在這一stage中mmtryon利用文本作為query,將得到的特徵與grouding dino+sam所得到的mask計算一個query損失。

目標是經過text query 後僅激活文本對應區域的特徵,這樣可以擺脫對於服裝分割的依賴。同時,利用大量的pair對更好的編碼服裝特徵。

之後,為了更穩定的訓練組合換裝,需要多件服裝組合式換裝的pair圖,但是這樣的pair圖採集成本很高。

為此,研究團隊提出了一個基於大模型的數據擴增模式,利用視覺語言模型以及grouding dino+sam去得到了不同區域的mask,來保護對應的上衣或者下衣區域,利用stable diffusion xl去重繪保護區域外剩下的內容,構建了100w的增強數據集,訓練中將增強數據集與90w原始數據一起加入訓練。

基於增強的數據集以及服裝編碼器,mmtryon設計了多參考圖像注意力模塊和多模態圖文注意力模塊,其中多參考圖圖像注意力模塊用於將多件衣服的特徵注入到目標圖像來控制多件衣服的試穿,多模態圖文注意力模塊利用詳細的文本與圖像的clip編碼來控制多樣的試穿風格。

可以看到,mmtryon 由於服飾編碼器豐富的表徵能力,對於各種類型的換裝都可以有真實的虛擬試穿效果:

無論是真人圖像還是掛台服飾,只需要多張服裝參考圖像及文本,就可以組合式換裝並控制換裝風格。

甚至還能作為一個fashion換裝輔助設計來幫你買衣服:

在量化指標上,mmtryon優於其他baseline的的效果,在開源數據集測試集合的human evaluation中,mmtryon也超過其它baseline模型

在複雜場景的human evaluation中,mmtryon也超越了目前的社區模型outfit anyone。

研究人員收集了複雜場景女裝圖片142張,男裝圖片57張,非服裝圖片87張,共邀請15位參與者參與評測,選擇更喜歡的方案結果。從圖表中可以看出,mmtryon的效果更受測試者的喜歡。

更多細節,感興趣的家人們可以查看論文~

論文鏈接:https://arxiv.org/abs/2405.00448