一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley

2022年10月04日20:54:19 科技 1817

Pine 發自 凹非寺

量子位 | 公眾號 QbitAI

用2D數據訓練出來的模型,也能生成3D圖像了。

輸入簡單的文本提示,就能生成3D模型,這個「AI畫師」的技術如何?

直接看效果。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

它生成的3D模型還具有密度、顏色。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

並且能夠在不同的光照條件進行渲染。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

不僅如此,它甚至可以把生成的多個3D模型融合到一個場景里。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

更重要的是,生成的3D模型還可以導出到網格中,用建模軟體進一步加工。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

這簡直就是高階版的NeRF,而這個AI畫師呢,名叫DreamFusion,是Google Research的一個最新成果。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

DreamFusion名字是不是聽起來有點耳熟?

沒錯,DreamFields!前不久,還有個中國小哥基於這個模型開源了一個AI作畫程序。

而這次的DreamFusion正是在DreamFields的基礎上進化而來的。

那從DreamFields到DreamFusion,都有哪些變化,讓DreamFusion有如此巨大的飛躍?

擴散模型是關鍵

一句話來講,DreamFusion與DreamFields之間最大的不同就是計算損失的方法不同。

在最新的DreamFusion中,它用了一個新的損失計算方法來代替CLIP:通過文本到圖像的Imagen擴散模型來計算損失。

擴散模型大家今年應該都很熟悉了吧,DreamFusion由數十億圖像-文本對的擴散模型驅動,相當於一個由擴散模型優化之後的NeRF,想不厲害都難。

不過要把擴散模型直接用來進行3D合成需要大規模的標記3D數據集和有效的3D數據去噪架構,但目前這兩個都還沒有,只能另謀出路。

因此在這項工作中,研究人員巧妙地避開這些限制,使用一個預先訓練的二維文本到圖像擴散模型來執行文本到三維合成。

具體來說,就是用Imagen擴散模型來計算生成3D圖像過程中的損失,對3D模型進行優化,那損失是如何計算呢?

這其中有很關鍵的一環,研究人員引入一個新的圖像採樣方法:評分蒸餾採樣 (SDS)它在參數空間而不是像素空間中進行採樣

因為參數的限制,這種方法能夠很好的控制生成圖像的質量走向(下圖右)

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

而這裡,就是用評分蒸餾採樣來表示生成過程中的損失,通過不斷優化最小化這種損失,從而輸出質量良好的3D模型。

值得一提的是,DreamFusion在生成圖像的過程中,裡面的參數會經過優化,成為擴散模型的一個訓練樣本,經過擴散模型訓練之後的參數具備多尺度特性,更利於後續的圖像生成。

除此之外,擴散模型帶來的還有很重要的一點是:不需要反向傳播,這是因為擴散模型能夠直接預測更新的方向。

網友討論

這波研究成果屬實是驚呆網友了,前腳Meta剛發布text-video,後腳谷歌這邊就發布了text-3D的模型。

(還是用2D擴散模型輸出3D圖像)

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

甚至有網友發問:

下一版本的高解析度3D成果什麼時候會出來?兩年嗎?

論文的一作直接在下方調侃地評論道:

兩周?

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

當然這個AI技術成果也免不了激起那個老生常談的話題——會不會取代人類。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

不過大多數人還是抱著很樂觀的心態:

作為一個3D建模師/設計師,未來(AI)用於模型設計輔助的潛力也是難以置信的。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

(小彩蛋)有網友挖出了DreamFusion的一些有趣的失敗案例:

比如說生成的這隻松鼠,在它的帽衫後面又多出了一隻眼睛(也怪嚇人的)

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

團隊介紹

研究團隊中有三位均來自Google Research,分別為論文的一作Ben Poole,Jon Barron和Ben Mildenhall,還有一位加州大學伯克利分校的博士生。

Google Research是Google公司內部進行各種最先進技術研究的部門,他們也有自己的開源項目,在GitHub公開。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

他們的口號是:我們的團隊渴望做出影響每個人的發現,我們的方法的核心是分享我們的研究和工具,以推動該領域的進展。

一作Ben Poole是斯坦福大學神經學博士,也是谷歌大腦的研究員,目前他的研究重點是使用生成模型改進無監督和半監督學習的演算法。

一句話生成3D模型,但只需2D數據訓練|谷歌&UC Berkeley - 天天要聞

參考鏈接:
[1]https://dreamfusion3d.github.io/index.html
[2]https://twitter.com/poolio/status/1575618598805983234

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略 - 天天要聞

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略

2月9日,長安汽車和東風集團股份(00489.HK)同步發布了控股股東「正在與其他國資央企集團籌劃重組事項」的信息。長安汽車的控股股東是兵裝集團,而東風集團股份的控股股東是東風公司。隨即,長安汽車和東風集團這兩家汽車央企將合併重組,成為業內關注的焦點。
公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了 - 天天要聞

公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了

電動車加強管理以後,要求機動車類型的車輛需要持證上路,但是老年人考駕照卻受阻,一方面有年齡的限制,另一方面偏遠山區考駕照不方便,所以在2025年公安部出手了,年齡限制放寬10年,同時推出送考下鄉服務,還進一步的降低考駕照的費用,2025年起考摩托車駕照不難了。
從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日 - 天天要聞

從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日

發布會以技術切入,並全程圍繞安全展開。廣汽集團董事長、總經理馮興亞率先登場,宣布2025年四季度將正式上市支持L3級智能駕駛的車型,他同時強調面向自動駕駛時代對智能駕駛技術、整車安全架構以及突發風險處理能力的要求更高。如何才能滿足更高的要求?馮興亞提到了「廣汽
關稅大棒下,最受傷的車企出現了 - 天天要聞

關稅大棒下,最受傷的車企出現了

特朗普的關稅大棒剛揮出,尚未嚇退「外敵」,卻先刺痛了自己。近日,擁有瑪莎拉蒂、Jeep等14個品牌的全球第四大車企斯泰蘭蒂斯突然宣布裁撤900名美國工人,關閉加拿大和墨西哥兩家工廠,北美生產線陷入癱瘓。幾乎同一時間,捷豹路虎宣布暫停對美出口一個月,奧迪更是直接