Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產

2025年03月22日19:12:02 科技 1019



Roblox,這個備受青少年喜愛的在線遊戲平台,正通過引入 AI 技術,進一步革新遊戲的創作體驗。 據了解,曾獲選「兒童票選獎最受歡迎遊戲」的 Roblox 允許用戶設計自己的遊戲、物品及衣服,以及遊玩自己和其他開發者創建的各種不同類型的遊戲。 而現在,用戶可以藉助 AI 來完成這些創作了。


近日,Roblox 發布了一個用於 3D 智能的基礎模型 Cude。據介紹,Roblox 的目標是構建一個可以生成 Roblox 遊戲各方面體驗的 3D 智能基礎模型,從生成 3D 物體和場景到人物角色,再到描述事物行為的編程腳本。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞
Roblox 創始人兼 CEO David Baszucki 的推文

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox 還在 Hugging Face 上線了一個 Web 應用,也已經有不少網友分享了他們各自的生成結果。這裡我們也來嘗試一番。

首先,讓 Cude 生成一個三頭六臂的男孩(a boy with 3 heads and 6 arms):

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這和我們常見的哪吒形態可真是相去甚遠。下面再來個更加日常一些的事物:一台老式打字機(An old-fashioned typewriter)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這一次 Cube 的表現就好多了。多次嘗試後,我們發現,Cube 的整體效果目前還只能說是一般 —— 在生成日常可見的事物表現會好一點,略微超出常識的東西都會讓它給出與指令不符的結果,比如讓它生成一隻手叉腰站立的貓(A cat standing with hands on hips)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

下面我們就來具體看看 Roblox 的這項研究。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

  • 論文標題:Cube: A Roblox View of 3D Intelligence
  • 論文地址:https://arxiv.org/pdf/2503.15475
  • 項目地址:https://github.com/Roblox/cube
  • 試用鏈接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作為一家遊戲公司,Roblox 開發這個 3D 智能基礎模型的動機非常明顯。

他們表示:「我們將此模型設想為各種協作助手的基礎 —— 可以幫助開發者創造 Roblox 體驗的各個方面,從創建單個 3D 對象(例如,製作帶翅膀的摩托車)到完整的 3D 場景布局(例如,創建一個未來風格雲朵城市),再到穿戴裝備的人物角色(例如,生成一個能夠進行牆壁跳躍的外星忍者)到描述對象行為、交互和遊戲邏輯的腳本(例如,當玩家靠近門並攜帶金鑰匙時,讓門打開)。」

基於這些設想,他們首先確立了三個核心設計要求:

  • 能從稀疏的多模態數據中聯合學習;
  • 可通過自回歸模型處理無界的輸入 / 輸出大小;
  • 能通過多模態輸入 / 輸出與人類和其他 AI 系統協作。

當然,理想雖然很豐滿,甚至涉及到「元宇宙」等概念,但現實的路還是得一步步地走。這一次發布的 Cube 模型是 Roblox 向 3D 智能基礎模型邁出的第一步。

具體來說,他們關注的核心是 3D 形狀的 token 化——畢竟幾何形狀應該是這個基礎模型的核心數據類型。

他們的研究表明,新提出的 token 化方案可以用來構建多種應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成,如圖 1 和 2 所示。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞


Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

形狀 token 化

為了忠實地捕捉各種幾何特性,包括光滑的表面、銳利的邊緣、高頻細節,需要一種具有足夠表現力的 3D 幾何表示,其可用作多模態自回歸序列模型的輸入和輸出 token。

立足於這樣的需求,Roblox 從 3DShape2VecSet 等連續形狀表示開始,並將其調整為離散 token,以實現對跨模態的輸入和輸出的原生處理 —— 類似於 Chameleon 等混合模態基礎模型。

如圖 3 所示,Cube 的高層架構採用了編碼器 - 解碼器設計,其會將輸入的 3D mesh 編碼成一種隱含表徵,而這種隱含表徵之後又可被解碼成一種隱式佔用場(implicit occupancy field)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中一個關鍵區別在於會通過一個額外的向量量化過程來離散化這個連續的隱含表徵,而由於其不可微分的性質,這又會帶來額外的難題。

為此,他們提出了兩種技術:隨機梯度捷徑和自監督隱含空間正則化。

他們還提出了另一項架構改進:使用相位調製位置編碼。其作用是能提高基於感知器的 Transformer 在交叉注意力層中為空間不同點消歧的能力。

該團隊表示:「這些架構變化使我們訓練出的形狀 token 化器可以忠實地捕捉各種形狀,同時產生適合用於訓練基於 token 的混合模態基礎模型的離散 token。」

相位調製位置編碼

為了將形狀編碼成一個緊湊的隱含表示,研究者首先從其表面採樣 _ 個點以創建一個點雲 P。先前的工作在使用 transformer 網絡處理 P 之前,通過正弦位置編碼函數 (・) 對其進行嵌入:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中 () 分別應用於 P 中三個坐標通道 ∈ [, , ] 的每一個,且 _ = 2⌊/2⌋, _ = /2 ( mod 2),對於 = 1,・・・,,其中 是基頻的數量。

(・) 函數的周期性特性導致在空間中相隔 2/_整數倍的點會在第個通道中被映射為相同的編碼。這一現象使得空間上相距較遠的點可能會映射到相似的嵌入向量(圖 4a),而這些向量在經過交叉注意力層的點積運算後難以被有效區分。由於嵌入無法區分空間上相距較遠的點,相應地,也無法區分不同形狀表面的特徵,最終導致形狀重建質量下降。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

為了解決這個問題,需要一種新型技術來編碼點,使其不僅能像傳統位置編碼那樣捕獲多尺度特徵,還能在點積注意力機制中保持空間上相距較遠的點的區分性。研究者從相位調製技術中汲取靈感,提出了相位調製位置編碼 (PMPE)。PMPE 在所有正弦函數上調製相位偏移,並使用嵌入函數_PM,定義為:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中() 是傳統的編碼函數,是控制通道間相位變化率的超參數。這裡的 ()(1-/) 項用於改變基頻,以避免() 和′() 之間的共振。

與使用指數增長頻率來捕獲多尺度特徵的() 不同,′() 對每個通道使用相同的頻率/2,但通過的非線性函數來改變相位偏移′。這種非線性相位調製確保了空間上相距較遠的點在映射到嵌入空間時保持區分性,如圖 4b 所示。

實驗表明,PMPE 顯著提高了重建保真度,特別是對於複雜的幾何細節。PMPE 還減少了例如色斑 (disco) 等偽影的產生。

用於梯度穩定化的隨機線性捷徑

在將輸入形狀編碼為連續隱向量後,研究者採用最優傳輸 VQ(optimal transport VQ)將隱向量轉換為離散 token 序列。由於 VQ-VAE 中的量化層涉及不可微分的碼本嵌入(codebook embedding)分配,可能導致訓練不穩定。

研究者引入了額外的線性捷徑層,可隨機跳過整個量化瓶頸。他們以 50% 概率通過線性層投影編碼器的隱向量,直接輸入解碼器。這與直接捷徑(direct shortcut)方法不同,後者使用恆等層而非線性層,實驗證明表現不佳。

額外的線性層使捷徑路徑能作為量化路徑的教師網絡,防止陷入局部最小值。實驗證明這種方法可降低訓練和驗證損失,並能提高訓練穩定性。

通過自監督損失學習幾何聚類的隱含表示

借鑒視覺模型研究,該研究採用自監督損失來正則化隱含空間,使相似形狀產生接近的隱向量,圖 5 展示了該編碼器的自監督學習流程。研究者維護了編碼器的指數移動平均版本作為教師模型,學生編碼器接收掩碼輸入,教師編碼器訪問完整查詢集。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

兩個編碼器使用額外 MLP 頭生成「原型分數(prototype scores)」,自監督損失是這些分數間的交叉熵,通過 λ_SSL 平衡與重建損失的關係。這使幾何相似形狀能編碼為高餘弦相似度的隱向量。

如圖 6 所示,將幾何相似形狀編碼為具有高餘弦相似度的隱向量的能力自然地從額外的自監督損失中產生。研究者預計這一特性將對廣泛的形狀處理應用證明其價值。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

實驗

架構詳情

該模型使用結構相似的編碼器 (13 層) 和解碼器 (24 層) Transformer,每層寬度 768,共 12 個注意力頭,總參數量 2.73 億。使用 512 個隱含編碼 token,16,384 大小的碼本,嵌入維度 32。PMPE 參數 β = 0.125,自監督損失 λ_SSL = 0.0005。VQ 層採用 OptVQ 變體,集成最優傳輸方法。

訓練數據

研究在約 150 萬個 3D 物體資產上訓練模型,包括 Objaverse 等公開數據集和 Roblox Creator Store 資產。所有資產歸一化至 [-1,1] 範圍內,訓練時在表面採樣 8,192 點用於輸入編碼,額外採樣 8,192 點計算佔用損失(occupancy loss)。

模型比較

研究比較了離散形狀 tokenizer 與一種連續變體,並與 CraftsMan(在 17 萬物體上訓練)進行對比。在 Toys4K 數據集上評估表面交並比(S-IoU)和體積交並比(V-IoU)表明,該研究的 VQ-VAE 模型和連續變體均優於 CraftsMan,但連續變體仍優於離散模型,表明向量量化過程存在幾何保真度損失。

如表 1 和圖 7 所示,該研究提出的 VQ-VAE 模型(Ours-VQ)和連續變體(Ours-KL)在 S-IoU 和 V-IoU 指標上均優於 CraftsMan。連續變體仍然優於其對應的離散模型,這表明通過向量量化過程仍然存在一些幾何保真度的損失。研究團隊計劃在未來的工作中彌合這一差距。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

最後,Roblox 在論文中展示了一些具體的應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

更多詳情請前往原論文一探究竟。


科技分類資訊推薦

小屏、顏值、續航、性能都要!vivo S30 Pro mini今晚正式發布 - 天天要聞

小屏、顏值、續航、性能都要!vivo S30 Pro mini今晚正式發布

全新vivo S30 Pro mini今晚七點就要正式與大家見面了,從日前的預熱和爆料來看,這款小屏旗艦亮點多多,要顏值有顏值,要影像有影像,續航、性能等方面也進行了大幅提升,充分滿足當下年輕消費者的使用需求,下面一起來看看它的賣點吧。
年入300億,朴朴超市種種“反常規”操作,一路闖到IPO - 天天要聞

年入300億,朴朴超市種種“反常規”操作,一路闖到IPO

文 | 觀潮新消費說起朴朴超市,可能很多人都沒聽說過,因為其只在福建、廣東兩省內以及成都、武漢等9個城市運營。這是一家很特別的企業。當競爭對手忙着全國各地撒網擴張時,朴朴超市卻踐行“沒有金剛鑽,不攬瓷器活”的原則,寧願被市場“嫌棄”步伐太慢,也堅持只做部分區域。在市場質疑前置倉模式時,它還把單倉面積越做...
為什麼CID廣告是今年618的一大看點 - 天天要聞

為什麼CID廣告是今年618的一大看點

文 | 窄播,作者 | 龐夢圓618期間,一個廣告名詞或一種廣告形式在更高頻地出現,CID。淘天與小紅書新合作的「紅貓計劃」,此前合作的小紅星;淘天與B站此前合作的星火計劃,最近升級的「星伴計劃」;京東此前與小紅書/B站合作的小紅盟、京火計劃,以及最近也在升級的與小紅書的新數據回傳計劃等,背後都與CID相關。CID全稱...
解碼中國四大家電巨頭的全球征途 - 天天要聞

解碼中國四大家電巨頭的全球征途

文 | 節點財經,作者 | 一燈 2024年,中國家電行業在海外交出了一份令人矚目的答卷。據《2024年中國家電行業年度報告》顯示,2024年國內家電市場銷售規模為8468億元,同比增長9%;中國家用電器出口數量高達 448144.5 萬台,相較於上一年度,實現了20.8%的增長幅度;出口總額則達到 7122億元,同比增長15.4%。圖源:《2024年...
華為六月將發布至少6款新品 除了Pura 80系列還有啥? - 天天要聞

華為六月將發布至少6款新品 除了Pura 80系列還有啥?

【CNMO科技消息】近日,華為在6月的新品計劃引髮網友關注。據數碼博主爆料,華為計劃在6月推出至少6款新品,涵蓋手機、智能穿戴、汽車等多個領域。其中,Pura 80系列作為核心亮點,但其他產品同樣值得關注。華為據CNMO了解,華為Pura 80系列將延續影像技術突破思路,Ultra版搭載國產一英寸主攝與YYB雙陣列潛望長焦,支持夜...
從兼容到共生:奔圖與麒麟軟件戰略合作全面升級 - 天天要聞

從兼容到共生:奔圖與麒麟軟件戰略合作全面升級

IT之家 5 月 29 日消息,珠海奔圖電子有限公司(以下簡稱“奔圖”)與麒麟軟件有限公司(以下簡稱“麒麟軟件”)戰略合作簽約儀式於 5 月 27 日在京舉行。麒麟軟件表示,此次簽約標誌着雙方戰略合作關係從兼容適配走向市場與技術深度融合的全面升級。雙方認為,基於首次戰略合作後達成的協同關係及良好效益,接下來將進一步...
CounterPoint 報告 2025Q1 印度手機出貨量 - 天天要聞

CounterPoint 報告 2025Q1 印度手機出貨量

IT之家 5 月 29 日消息,市場調查機構 CounterPoint Research 昨日(5 月 28 日)發布博文,報道稱 2025 年第 1 季度,vivo 已連續 3 個季度領跑印度智能手機出貨量,最新市場份額達到 22%。IT之家援引博文介紹,三星得益於在覆蓋不同價格段的多款產品,在第 1 季度出貨量份額達到 17%。其中在 Galaxy S2