Roblox發佈3D智能基礎模型Cube，一句話生成遊戲資產

2025年03月22日19:12:02 科技 1019

Roblox，這個備受青少年喜愛的在線遊戲平台，正通過引入 AI 技術，進一步革新遊戲的創作體驗。據了解，曾獲選「兒童票選獎最受歡迎遊戲」的 Roblox 允許用戶設計自己的遊戲、物品及衣服，以及遊玩自己和其他開發者創建的各種不同類型的遊戲。而現在，用戶可以藉助 AI 來完成這些創作了。

近日，Roblox 發佈了一個用於 3D 智能的基礎模型 Cude。據介紹，Roblox 的目標是構建一個可以生成 Roblox 遊戲各方面體驗的 3D 智能基礎模型，從生成 3D 物體和場景到人物角色，再到描述事物行為的編程腳本。

Roblox 創始人兼 CEO David Baszucki 的推文

Roblox 還在 Hugging Face 上線了一個 Web 應用，也已經有不少網友分享了他們各自的生成結果。這裡我們也來嘗試一番。

首先，讓 Cude 生成一個三頭六臂的男孩（a boy with 3 heads and 6 arms）：

這和我們常見的哪吒形態可真是相去甚遠。下面再來個更加日常一些的事物：一台老式打字機（An old-fashioned typewriter）。

這一次 Cube 的表現就好多了。多次嘗試後，我們發現，Cube 的整體效果目前還只能說是一般 —— 在生成日常可見的事物表現會好一點，略微超出常識的東西都會讓它給出與指令不符的結果，比如讓它生成一隻手叉腰站立的貓（A cat standing with hands on hips）。

下面我們就來具體看看 Roblox 的這項研究。

論文標題：Cube: A Roblox View of 3D Intelligence
論文地址：https://arxiv.org/pdf/2503.15475
項目地址：https://github.com/Roblox/cube
試用鏈接：https://huggingface.co/spaces/Roblox/cube3d-interactive

作為一家遊戲公司，Roblox 開發這個 3D 智能基礎模型的動機非常明顯。

他們表示：「我們將此模型設想為各種協作助手的基礎 —— 可以幫助開發者創造 Roblox 體驗的各個方面，從創建單個 3D 對象（例如，製作帶翅膀的摩托車）到完整的 3D 場景布局（例如，創建一個未來風格雲朵城市），再到穿戴裝備的人物角色（例如，生成一個能夠進行牆壁跳躍的外星忍者）到描述對象行為、交互和遊戲邏輯的腳本（例如，當玩家靠近門並攜帶金鑰匙時，讓門打開）。」

基於這些設想，他們首先確立了三個核心設計要求：

能從稀疏的多模態數據中聯合學習；
可通過自回歸模型處理無界的輸入 / 輸出大小；
能通過多模態輸入 / 輸出與人類和其他 AI 系統協作。

當然，理想雖然很豐滿，甚至涉及到「元宇宙」等概念，但現實的路還是得一步步地走。這一次發佈的 Cube 模型是 Roblox 向 3D 智能基礎模型邁出的第一步。

具體來說，他們關注的核心是 3D 形狀的 token 化——畢竟幾何形狀應該是這個基礎模型的核心數據類型。

他們的研究表明，新提出的 token 化方案可以用來構建多種應用，包括文本到形狀生成、形狀到文本生成和文本到場景生成，如圖 1 和 2 所示。

形狀 token 化

為了忠實地捕捉各種幾何特性，包括光滑的表面、銳利的邊緣、高頻細節，需要一種具有足夠表現力的 3D 幾何表示，其可用作多模態自回歸序列模型的輸入和輸出 token。

立足於這樣的需求，Roblox 從 3DShape2VecSet 等連續形狀表示開始，並將其調整為離散 token，以實現對跨模態的輸入和輸出的原生處理 —— 類似於 Chameleon 等混合模態基礎模型。

如圖 3 所示，Cube 的高層架構採用了編碼器 - 解碼器設計，其會將輸入的 3D mesh 編碼成一種隱含表徵，而這種隱含表徵之後又可被解碼成一種隱式佔用場（implicit occupancy field）。

其中一個關鍵區別在於會通過一個額外的向量量化過程來離散化這個連續的隱含表徵，而由於其不可微分的性質，這又會帶來額外的難題。

為此，他們提出了兩種技術：隨機梯度捷徑和自監督隱含空間正則化。

他們還提出了另一項架構改進：使用相位調製位置編碼。其作用是能提高基於感知器的 Transformer 在交叉注意力層中為空間不同點消歧的能力。

該團隊表示：「這些架構變化使我們訓練出的形狀 token 化器可以忠實地捕捉各種形狀，同時產生適合用於訓練基於 token 的混合模態基礎模型的離散 token。」

相位調製位置編碼

為了將形狀編碼成一個緊湊的隱含表示，研究者首先從其表面採樣 _ 個點以創建一個點雲 P。先前的工作在使用 transformer 網絡處理 P 之前，通過正弦位置編碼函數 (・) 對其進行嵌入：

其中 () 分別應用於 P 中三個坐標通道 ∈ [, , ] 的每一個，且 _ = 2⌊/2⌋, _ = /2 ( mod 2)，對於 = 1,・・・,，其中是基頻的數量。

(・) 函數的周期性特性導致在空間中相隔 2/_整數倍的點會在第個通道中被映射為相同的編碼。這一現象使得空間上相距較遠的點可能會映射到相似的嵌入向量（圖 4a），而這些向量在經過交叉注意力層的點積運算後難以被有效區分。由於嵌入無法區分空間上相距較遠的點，相應地，也無法區分不同形狀表面的特徵，最終導致形狀重建質量下降。

為了解決這個問題，需要一種新型技術來編碼點，使其不僅能像傳統位置編碼那樣捕獲多尺度特徵，還能在點積注意力機制中保持空間上相距較遠的點的區分性。研究者從相位調製技術中汲取靈感，提出了相位調製位置編碼 (PMPE)。PMPE 在所有正弦函數上調製相位偏移，並使用嵌入函數_PM，定義為：

其中() 是傳統的編碼函數，是控制通道間相位變化率的超參數。這裡的 ()(1-/) 項用於改變基頻，以避免() 和′() 之間的共振。

與使用指數增長頻率來捕獲多尺度特徵的() 不同，′() 對每個通道使用相同的頻率/2，但通過的非線性函數來改變相位偏移′。這種非線性相位調製確保了空間上相距較遠的點在映射到嵌入空間時保持區分性，如圖 4b 所示。

實驗表明，PMPE 顯著提高了重建保真度，特別是對於複雜的幾何細節。PMPE 還減少了例如色斑 (disco) 等偽影的產生。

用於梯度穩定化的隨機線性捷徑

在將輸入形狀編碼為連續隱向量後，研究者採用最優傳輸 VQ（optimal transport VQ）將隱向量轉換為離散 token 序列。由於 VQ-VAE 中的量化層涉及不可微分的碼本嵌入（codebook embedding）分配，可能導致訓練不穩定。

研究者引入了額外的線性捷徑層，可隨機跳過整個量化瓶頸。他們以 50% 概率通過線性層投影編碼器的隱向量，直接輸入解碼器。這與直接捷徑（direct shortcut）方法不同，後者使用恆等層而非線性層，實驗證明表現不佳。

額外的線性層使捷徑路徑能作為量化路徑的教師網絡，防止陷入局部最小值。實驗證明這種方法可降低訓練和驗證損失，並能提高訓練穩定性。

通過自監督損失學習幾何聚類的隱含表示

借鑒視覺模型研究，該研究採用自監督損失來正則化隱含空間，使相似形狀產生接近的隱向量，圖 5 展示了該編碼器的自監督學習流程。研究者維護了編碼器的指數移動平均版本作為教師模型，學生編碼器接收掩碼輸入，教師編碼器訪問完整查詢集。

兩個編碼器使用額外 MLP 頭生成「原型分數（prototype scores）」，自監督損失是這些分數間的交叉熵，通過 λ_SSL 平衡與重建損失的關係。這使幾何相似形狀能編碼為高餘弦相似度的隱向量。

如圖 6 所示，將幾何相似形狀編碼為具有高餘弦相似度的隱向量的能力自然地從額外的自監督損失中產生。研究者預計這一特性將對廣泛的形狀處理應用證明其價值。

實驗

架構詳情

該模型使用結構相似的編碼器 (13 層) 和解碼器 (24 層) Transformer，每層寬度 768，共 12 個注意力頭，總參數量 2.73 億。使用 512 個隱含編碼 token，16,384 大小的碼本，嵌入維度 32。PMPE 參數 β = 0.125，自監督損失 λ_SSL = 0.0005。VQ 層採用 OptVQ 變體，集成最優傳輸方法。

訓練數據

研究在約 150 萬個 3D 物體資產上訓練模型，包括 Objaverse 等公開數據集和 Roblox Creator Store 資產。所有資產歸一化至 [-1,1] 範圍內，訓練時在表面採樣 8,192 點用於輸入編碼，額外採樣 8,192 點計算佔用損失（occupancy loss）。

模型比較

研究比較了離散形狀 tokenizer 與一種連續變體，並與 CraftsMan（在 17 萬物體上訓練）進行對比。在 Toys4K 數據集上評估表面交並比（S-IoU）和體積交並比（V-IoU）表明，該研究的 VQ-VAE 模型和連續變體均優於 CraftsMan，但連續變體仍優於離散模型，表明向量量化過程存在幾何保真度損失。

如表 1 和圖 7 所示，該研究提出的 VQ-VAE 模型（Ours-VQ）和連續變體（Ours-KL）在 S-IoU 和 V-IoU 指標上均優於 CraftsMan。連續變體仍然優於其對應的離散模型，這表明通過向量量化過程仍然存在一些幾何保真度的損失。研究團隊計劃在未來的工作中彌合這一差距。