一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley

Pine 發自 凹非寺

量子位 | 公眾號 QbitAI

用2D數據訓練出來的模型,也能生成3D圖像了。

輸入簡單的文本提示,就能生成3D模型,這個「AI畫師」的技術如何?

直接看效果。

它生成的3D模型還具有密度、顏色。

並且能夠在不同的光照條件進行渲染。

不僅如此,它甚至可以把生成的多個3D模型融合到一個場景里。

更重要的是,生成的3D模型還可以導出到網格中,用建模軟體進一步加工。

這簡直就是高階版的NeRF,而這個AI畫師呢,名叫DreamFusion,是Google Research的一個最新成果。

DreamFusion名字是不是聽起來有點耳熟?

沒錯,DreamFields!前不久,還有個中國小哥基於這個模型開源了一個AI作畫程序。

而這次的DreamFusion正是在DreamFields的基礎上進化而來的。

那從DreamFields到DreamFusion,都有哪些變化,讓DreamFusion有如此巨大的飛躍?

擴散模型是關鍵

一句話來講,DreamFusion與DreamFields之間最大的不同就是計算損失的方法不同。

在最新的DreamFusion中,它用了一個新的損失計算方法來代替CLIP:通過文本到圖像的Imagen擴散模型來計算損失。

擴散模型大家今年應該都很熟悉了吧,DreamFusion由數十億圖像-文本對的擴散模型驅動,相當於一個由擴散模型優化之後的NeRF,想不厲害都難。

不過要把擴散模型直接用來進行3D合成需要大規模的標記3D數據集和有效的3D數據去噪架構,但目前這兩個都還沒有,只能另謀出路。

因此在這項工作中,研究人員巧妙地避開這些限制,使用一個預先訓練的二維文本到圖像擴散模型來執行文本到三維合成。

具體來說,就是用Imagen擴散模型來計算生成3D圖像過程中的損失,對3D模型進行優化,那損失是如何計算呢?

這其中有很關鍵的一環,研究人員引入一個新的圖像採樣方法:評分蒸餾採樣 (SDS)它在參數空間而不是像素空間中進行採樣

因為參數的限制,這種方法能夠很好的控制生成圖像的質量走向(下圖右)

而這裡,就是用評分蒸餾採樣來表示生成過程中的損失,通過不斷優化最小化這種損失,從而輸出質量良好的3D模型。

值得一提的是,DreamFusion在生成圖像的過程中,裡面的參數會經過優化,成為擴散模型的一個訓練樣本,經過擴散模型訓練之後的參數具備多尺度特性,更利於後續的圖像生成。

除此之外,擴散模型帶來的還有很重要的一點是:不需要反向傳播,這是因為擴散模型能夠直接預測更新的方向。

網友討論

這波研究成果屬實是驚呆網友了,前腳Meta剛發布text-video,後腳谷歌這邊就發布了text-3D的模型。

(還是用2D擴散模型輸出3D圖像)

甚至有網友發問:

下一版本的高解析度3D成果什麼時候會出來?兩年嗎?

論文的一作直接在下方調侃地評論道:

兩周?

當然這個AI技術成果也免不了激起那個老生常談的話題——會不會取代人類。

不過大多數人還是抱著很樂觀的心態:

作為一個3D建模師/設計師,未來(AI)用於模型設計輔助的潛力也是難以置信的。

(小彩蛋)有網友挖出了DreamFusion的一些有趣的失敗案例:

比如說生成的這隻松鼠,在它的帽衫後面又多出了一隻眼睛(也怪嚇人的)

團隊介紹

研究團隊中有三位均來自Google Research,分別為論文的一作Ben Poole,Jon Barron和Ben Mildenhall,還有一位加州大學伯克利分校的博士生。

Google Research是Google公司內部進行各種最先進技術研究的部門,他們也有自己的開源項目,在GitHub公開。

他們的口號是:我們的團隊渴望做出影響每個人的發現,我們的方法的核心是分享我們的研究和工具,以推動該領域的進展。

一作Ben Poole是斯坦福大學神經學博士,也是谷歌大腦的研究員,目前他的研究重點是使用生成模型改進無監督和半監督學習的演算法。

參考鏈接:
[1]https://dreamfusion3d.github.io/index.html
[2]https://twitter.com/poolio/status/1575618598805983234

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態