西風 發自 凹非寺
量子位 | 公眾號 qbitai
笑不活,最新虛擬試穿神器被網友們玩壞了。
黃院士、馬斯克、奧特曼、史密斯等一眾大佬衣服集體被扒。
前有老黃卸下皮衣套上糖果包裝袋:
後有奧特曼大秀花臂穿cucci:
再有老馬變成了蛛蛛俠:
好萊塢巨星史密斯也風格大變:
但說回研究本身,確實正兒八經的研究。
名為idm–vton,由來自韓國科學技術院和omnious.ai公司的研究團隊基於擴散模型打造。
目前官方放出了demo,大伙兒可以試玩,推理代碼已開源。
除了開頭所展示的,抱抱臉研究員也玩的不亦樂乎,給老黃換上了專屬戰袍。其ceo連忙轉發打趣:
我被替代了,沒法和他爭ceo。
看熱鬧的網友也是感慨,經過這麼多年,終於不用再擔心自己「手殘」了(ai幫你搞定)。
來玩啊~
我們也趕緊上手體驗了一把。demo整個頁面是這樣嬸兒的:
操作起來也是非常簡單。
首先上傳人物圖,可以手動或者自動選擇要修改的區域。然後,上傳要換的衣服。
直接點擊try-on,會自動生成掩模圖和換裝後的圖:
上面這張自動生成的掩模把手也選進去了,所以最後生成的左手效果不好。
我們手動選取塗抹一下,同時人和衣服全部都用我們自己的圖。
這次效果大伙兒覺得如何?
再來展示一波網友的試玩成品圖。
deepmind聯合創始人蘇萊曼穿上了微笑面具修格斯聯名款t恤:
甚至不少網友真想要這件衣服。
奧特曼再次被網友當成模特:
當然也有翻車的時候,比如馬斯克穿的就是山寨cucci。
看完效果後,接著來看idm–vton在技術上是如何實現的。
基於擴散模型
技術方面,idm–vton基於擴散模型,通過設計精細的注意力模塊來提高服裝圖像的一致性,並生成真實的虛擬試穿圖像。
模型架構大概包含三部分:
tryonnet:主unet,處理人物圖像。
ip-adapter:圖像提示適配器,編碼服裝圖像的高級語義。
garmentnet:並行unet,提取服裝的低級特徵。
在為unet提供輸入時,研究人員將人物圖片的含雜訊潛在特徵、分割掩模、帶掩蔽的圖片和densepose數據整合在一起。
他們還會為服裝添加詳細描述,例如[v]表示「短袖圓領t恤」。這個描述隨後用作garmentnet(例如,「一張[v]的照片」)和tryonnet(例如,「模特正在穿[v]」)的輸入提示。
tryonnet和garmentnet產生的中間特徵進行了合併,隨後傳遞至自我注意力層。研究人員只使用了來自tryonnet的輸出的前半部分。這些輸出與文本編碼器和ip-adapter的特徵一起,通過交叉注意力層進行融合。
最終,研究人員對tryonnet和ip-adapter模塊進行了精細調整,並鎖定了模型的其它部分。
實驗階段,他們使用viton-hd數據集訓練模型,並在viton-hd、dresscode和內部收集的in-the-wild數據集上進行評估。
idm–vton在定性和定量上都優於先前的方法。
idm-vton可以生成真實的圖像並保留服裝的細粒度細節。
更多細節,感興趣的家人們可以查看原論文。
項目鏈接:
[1]https://idm-vton.github.io/?continueflag=589fb545dbbb123446456b65a635d849
[2]https://arxiv.org/abs/2403.05139
[3]https://huggingface.co/spaces/yisol/idm-vton?continueflag=589fb545dbbb123446456b65a635d849
參考鏈接:
[1]https://twitter.com/multimodalart/status/1782508538213933192
[2]https://twitter.com/fffiloni/status/1783158082849108434
[3]https://twitter.com/clementdelangue/status/1783179067803533577