一鍵換裝神器爆火,老黃穿抱抱臉T恤,CEO本人:和他爭CEO爭不過

西風 發自 凹非寺

量子位 | 公眾號 qbitai

笑不活,最新虛擬試穿神器被網友們玩壞了。

黃院士、馬斯克、奧特曼、史密斯等一眾大佬衣服集體被扒。

前有老黃卸下皮衣套上糖果包裝袋:

後有奧特曼大秀花臂穿cucci:

再有老馬變成了蛛蛛俠:

好萊塢巨星史密斯也風格大變:

但說回研究本身,確實正兒八經的研究。

名為idm–vton,由來自韓國科學技術院和omnious.ai公司的研究團隊基於擴散模型打造。

目前官方放出了demo,大伙兒可以試玩,推理代碼已開源。

除了開頭所展示的,抱抱臉研究員也玩的不亦樂乎,給老黃換上了專屬戰袍。其ceo連忙轉發打趣:

我被替代了,沒法和他爭ceo。

看熱鬧的網友也是感慨,經過這麼多年,終於不用再擔心自己「手殘」了(ai幫你搞定)。

來玩啊~

我們也趕緊上手體驗了一把。demo整個頁面是這樣嬸兒的:

操作起來也是非常簡單。

首先上傳人物圖,可以手動或者自動選擇要修改的區域。然後,上傳要換的衣服。

直接點擊try-on,會自動生成掩模圖和換裝後的圖:

上面這張自動生成的掩模把手也選進去了,所以最後生成的左手效果不好。

我們手動選取塗抹一下,同時人和衣服全部都用我們自己的圖。

這次效果大伙兒覺得如何?

再來展示一波網友的試玩成品圖。

deepmind聯合創始人蘇萊曼穿上了微笑面具修格斯聯名款t恤:

甚至不少網友真想要這件衣服。

奧特曼再次被網友當成模特:

當然也有翻車的時候,比如馬斯克穿的就是山寨cucci。

看完效果後,接著來看idm–vton在技術上是如何實現的。

基於擴散模型

技術方面,idm–vton基於擴散模型,通過設計精細的注意力模塊來提高服裝圖像的一致性,並生成真實的虛擬試穿圖像。

模型架構大概包含三部分:

tryonnet:主unet,處理人物圖像。

ip-adapter:圖像提示適配器,編碼服裝圖像的高級語義。

garmentnet:並行unet,提取服裝的低級特徵。

在為unet提供輸入時,研究人員將人物圖片的含雜訊潛在特徵、分割掩模、帶掩蔽的圖片和densepose數據整合在一起。

他們還會為服裝添加詳細描述,例如[v]表示「短袖圓領t恤」。這個描述隨後用作garmentnet(例如,「一張[v]的照片」)和tryonnet(例如,「模特正在穿[v]」)的輸入提示。

tryonnet和garmentnet產生的中間特徵進行了合併,隨後傳遞至自我注意力層。研究人員只使用了來自tryonnet的輸出的前半部分。這些輸出與文本編碼器和ip-adapter的特徵一起,通過交叉注意力層進行融合。

最終,研究人員對tryonnet和ip-adapter模塊進行了精細調整,並鎖定了模型的其它部分。

實驗階段,他們使用viton-hd數據集訓練模型,並在viton-hd、dresscode和內部收集的in-the-wild數據集上進行評估。

idm–vton在定性和定量上都優於先前的方法。

idm-vton可以生成真實的圖像並保留服裝的細粒度細節。

更多細節,感興趣的家人們可以查看原論文。

項目鏈接:

[1]https://idm-vton.github.io/?continueflag=589fb545dbbb123446456b65a635d849

[2]https://arxiv.org/abs/2403.05139

[3]https://huggingface.co/spaces/yisol/idm-vton?continueflag=589fb545dbbb123446456b65a635d849

參考鏈接:

[1]https://twitter.com/multimodalart/status/1782508538213933192

[2]https://twitter.com/fffiloni/status/1783158082849108434

[3]https://twitter.com/clementdelangue/status/1783179067803533577