Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產

2025年03月22日19:12:02 科技 1019



Roblox,這個備受青少年喜愛的在線遊戲平台,正通過引入 AI 技術,進一步革新遊戲的創作體驗。 據了解,曾獲選「兒童票選獎最受歡迎遊戲」的 Roblox 允許用戶設計自己的遊戲、物品及衣服,以及遊玩自己和其他開發者創建的各種不同類型的遊戲。 而現在,用戶可以藉助 AI 來完成這些創作了。


近日,Roblox 發佈了一個用於 3D 智能的基礎模型 Cude。據介紹,Roblox 的目標是構建一個可以生成 Roblox 遊戲各方面體驗的 3D 智能基礎模型,從生成 3D 物體和場景到人物角色,再到描述事物行為的編程腳本。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞
Roblox 創始人兼 CEO David Baszucki 的推文

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox 還在 Hugging Face 上線了一個 Web 應用,也已經有不少網友分享了他們各自的生成結果。這裡我們也來嘗試一番。

首先,讓 Cude 生成一個三頭六臂的男孩(a boy with 3 heads and 6 arms):

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這和我們常見的哪吒形態可真是相去甚遠。下面再來個更加日常一些的事物:一台老式打字機(An old-fashioned typewriter)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這一次 Cube 的表現就好多了。多次嘗試後,我們發現,Cube 的整體效果目前還只能說是一般 —— 在生成日常可見的事物表現會好一點,略微超出常識的東西都會讓它給出與指令不符的結果,比如讓它生成一隻手叉腰站立的貓(A cat standing with hands on hips)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

下面我們就來具體看看 Roblox 的這項研究。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

  • 論文標題:Cube: A Roblox View of 3D Intelligence
  • 論文地址:https://arxiv.org/pdf/2503.15475
  • 項目地址:https://github.com/Roblox/cube
  • 試用鏈接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作為一家遊戲公司,Roblox 開發這個 3D 智能基礎模型的動機非常明顯。

他們表示:「我們將此模型設想為各種協作助手的基礎 —— 可以幫助開發者創造 Roblox 體驗的各個方面,從創建單個 3D 對象(例如,製作帶翅膀的摩托車)到完整的 3D 場景布局(例如,創建一個未來風格雲朵城市),再到穿戴裝備的人物角色(例如,生成一個能夠進行牆壁跳躍的外星忍者)到描述對象行為、交互和遊戲邏輯的腳本(例如,當玩家靠近門並攜帶金鑰匙時,讓門打開)。」

基於這些設想,他們首先確立了三個核心設計要求:

  • 能從稀疏的多模態數據中聯合學習;
  • 可通過自回歸模型處理無界的輸入 / 輸出大小;
  • 能通過多模態輸入 / 輸出與人類和其他 AI 系統協作。

當然,理想雖然很豐滿,甚至涉及到「元宇宙」等概念,但現實的路還是得一步步地走。這一次發佈的 Cube 模型是 Roblox 向 3D 智能基礎模型邁出的第一步。

具體來說,他們關注的核心是 3D 形狀的 token 化——畢竟幾何形狀應該是這個基礎模型的核心數據類型。

他們的研究表明,新提出的 token 化方案可以用來構建多種應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成,如圖 1 和 2 所示。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞


Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

形狀 token 化

為了忠實地捕捉各種幾何特性,包括光滑的表面、銳利的邊緣、高頻細節,需要一種具有足夠表現力的 3D 幾何表示,其可用作多模態自回歸序列模型的輸入和輸出 token。

立足於這樣的需求,Roblox 從 3DShape2VecSet 等連續形狀表示開始,並將其調整為離散 token,以實現對跨模態的輸入和輸出的原生處理 —— 類似於 Chameleon 等混合模態基礎模型。

如圖 3 所示,Cube 的高層架構採用了編碼器 - 解碼器設計,其會將輸入的 3D mesh 編碼成一種隱含表徵,而這種隱含表徵之後又可被解碼成一種隱式佔用場(implicit occupancy field)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中一個關鍵區別在於會通過一個額外的向量量化過程來離散化這個連續的隱含表徵,而由於其不可微分的性質,這又會帶來額外的難題。

為此,他們提出了兩種技術:隨機梯度捷徑和自監督隱含空間正則化。

他們還提出了另一項架構改進:使用相位調製位置編碼。其作用是能提高基於感知器的 Transformer 在交叉注意力層中為空間不同點消歧的能力。

該團隊表示:「這些架構變化使我們訓練出的形狀 token 化器可以忠實地捕捉各種形狀,同時產生適合用於訓練基於 token 的混合模態基礎模型的離散 token。」

相位調製位置編碼

為了將形狀編碼成一個緊湊的隱含表示,研究者首先從其表面採樣 _ 個點以創建一個點雲 P。先前的工作在使用 transformer 網絡處理 P 之前,通過正弦位置編碼函數 (・) 對其進行嵌入:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中 () 分別應用於 P 中三個坐標通道 ∈ [, , ] 的每一個,且 _ = 2⌊/2⌋, _ = /2 ( mod 2),對於 = 1,・・・,,其中 是基頻的數量。

(・) 函數的周期性特性導致在空間中相隔 2/_整數倍的點會在第個通道中被映射為相同的編碼。這一現象使得空間上相距較遠的點可能會映射到相似的嵌入向量(圖 4a),而這些向量在經過交叉注意力層的點積運算後難以被有效區分。由於嵌入無法區分空間上相距較遠的點,相應地,也無法區分不同形狀表面的特徵,最終導致形狀重建質量下降。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

為了解決這個問題,需要一種新型技術來編碼點,使其不僅能像傳統位置編碼那樣捕獲多尺度特徵,還能在點積注意力機制中保持空間上相距較遠的點的區分性。研究者從相位調製技術中汲取靈感,提出了相位調製位置編碼 (PMPE)。PMPE 在所有正弦函數上調製相位偏移,並使用嵌入函數_PM,定義為:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中() 是傳統的編碼函數,是控制通道間相位變化率的超參數。這裡的 ()(1-/) 項用於改變基頻,以避免() 和′() 之間的共振。

與使用指數增長頻率來捕獲多尺度特徵的() 不同,′() 對每個通道使用相同的頻率/2,但通過的非線性函數來改變相位偏移′。這種非線性相位調製確保了空間上相距較遠的點在映射到嵌入空間時保持區分性,如圖 4b 所示。

實驗表明,PMPE 顯著提高了重建保真度,特別是對於複雜的幾何細節。PMPE 還減少了例如色斑 (disco) 等偽影的產生。

用於梯度穩定化的隨機線性捷徑

在將輸入形狀編碼為連續隱向量後,研究者採用最優傳輸 VQ(optimal transport VQ)將隱向量轉換為離散 token 序列。由於 VQ-VAE 中的量化層涉及不可微分的碼本嵌入(codebook embedding)分配,可能導致訓練不穩定。

研究者引入了額外的線性捷徑層,可隨機跳過整個量化瓶頸。他們以 50% 概率通過線性層投影編碼器的隱向量,直接輸入解碼器。這與直接捷徑(direct shortcut)方法不同,後者使用恆等層而非線性層,實驗證明表現不佳。

額外的線性層使捷徑路徑能作為量化路徑的教師網絡,防止陷入局部最小值。實驗證明這種方法可降低訓練和驗證損失,並能提高訓練穩定性。

通過自監督損失學習幾何聚類的隱含表示

借鑒視覺模型研究,該研究採用自監督損失來正則化隱含空間,使相似形狀產生接近的隱向量,圖 5 展示了該編碼器的自監督學習流程。研究者維護了編碼器的指數移動平均版本作為教師模型,學生編碼器接收掩碼輸入,教師編碼器訪問完整查詢集。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

兩個編碼器使用額外 MLP 頭生成「原型分數(prototype scores)」,自監督損失是這些分數間的交叉熵,通過 λ_SSL 平衡與重建損失的關係。這使幾何相似形狀能編碼為高餘弦相似度的隱向量。

如圖 6 所示,將幾何相似形狀編碼為具有高餘弦相似度的隱向量的能力自然地從額外的自監督損失中產生。研究者預計這一特性將對廣泛的形狀處理應用證明其價值。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

實驗

架構詳情

該模型使用結構相似的編碼器 (13 層) 和解碼器 (24 層) Transformer,每層寬度 768,共 12 個注意力頭,總參數量 2.73 億。使用 512 個隱含編碼 token,16,384 大小的碼本,嵌入維度 32。PMPE 參數 β = 0.125,自監督損失 λ_SSL = 0.0005。VQ 層採用 OptVQ 變體,集成最優傳輸方法。

訓練數據

研究在約 150 萬個 3D 物體資產上訓練模型,包括 Objaverse 等公開數據集和 Roblox Creator Store 資產。所有資產歸一化至 [-1,1] 範圍內,訓練時在表面採樣 8,192 點用於輸入編碼,額外採樣 8,192 點計算佔用損失(occupancy loss)。

模型比較

研究比較了離散形狀 tokenizer 與一種連續變體,並與 CraftsMan(在 17 萬物體上訓練)進行對比。在 Toys4K 數據集上評估表面交並比(S-IoU)和體積交並比(V-IoU)表明,該研究的 VQ-VAE 模型和連續變體均優於 CraftsMan,但連續變體仍優於離散模型,表明向量量化過程存在幾何保真度損失。

如表 1 和圖 7 所示,該研究提出的 VQ-VAE 模型(Ours-VQ)和連續變體(Ours-KL)在 S-IoU 和 V-IoU 指標上均優於 CraftsMan。連續變體仍然優於其對應的離散模型,這表明通過向量量化過程仍然存在一些幾何保真度的損失。研究團隊計劃在未來的工作中彌合這一差距。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

最後,Roblox 在論文中展示了一些具體的應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

更多詳情請前往原論文一探究竟。


科技分類資訊推薦

機器狗Go1存在後門安全漏洞,宇樹科技回應;OpenAI重大變化!任命了一位新CEO,奧特曼讓出部分職權丨AI周報 - 天天要聞

機器狗Go1存在後門安全漏洞,宇樹科技回應;OpenAI重大變化!任命了一位新CEO,奧特曼讓出部分職權丨AI周報

全球AI產業周報為你精選過去一周(5.3-5.9)最值得關注的AI新聞和國內外熱門AI投融資事件,幫助大家及時了解全球AI市場動向。本周AI熱點資訊國內大事宇樹科技回應機器狗Go1存在後門漏洞記者了解到,針對此前一些博主聲稱「宇樹科技的Go1機器狗存在後門漏洞」的情況,宇樹科技公布了調查結果。宇樹科技表示,黑客非法獲取了...
2025一季度算力領域增長最快的10家公司 - 天天要聞

2025一季度算力領域增長最快的10家公司

近日,據2025年5月相關消息,一季度算力增長較快的公司有縱橫通信、邁信林、鴻博股份、恆潤股份、康盛股份、歌華有線、全志科技、協創數據、青雲科技-U、潤建股份等。
「轉人工」咋就這麼難? - 天天要聞

「轉人工」咋就這麼難?

真正的智能化,應該是技術與人性化服務的有機結合,任何時候都不能偏離「以人為本」的初衷。客服的核心是「服務」,而非「應付」。「您好,有什麼可以幫您?」「轉人工服務。」「人工座席繁忙,請稍後再撥……」轉人工,轉人工,轉人工……你是否也常被智能客
劉強東繼外賣後又入局的士,註冊新商標 - 天天要聞

劉強東繼外賣後又入局的士,註冊新商標

5月6日,天眼查財產線索信息顯示,京東集團旗下子公司北京京東叄佰陸拾度電子商務有限公司,申請註冊多枚「Joyrobotaxi」商標,國際分類涵蓋運輸工具、科學儀器、運輸貯藏等核心領域,當前商標狀態均為等待實質審查。這一動作被業界普遍解讀為,
周單品銷量榜變天,小米、華為真長國人志氣 - 天天要聞

周單品銷量榜變天,小米、華為真長國人志氣

雖然現在蘋果在國內的銷量排名第六,但論單品銷量誰也不是iPhone 16系列的對手。每次周單品暢銷榜發佈,排名前三的機型都被iPhone 16系列霸佔。面對這種情況真是讓人無可奈何。但是W18周這種情況沒有再出來,我們先來看一下榜單再給大家
蘋果宣布降價!最高便宜超1440元 - 天天要聞

蘋果宣布降價!最高便宜超1440元

《科創板日報》5月10日訊,蘋果向渠道商下發了調價通知,這也是蘋果首次在周六宣布調價。蘋果iPhone 16 Pro Max 所有容量版本降價160美元,(摺合人民幣1313.06元);而 iPhone 16 Pro的128GB版本降價176美元,(摺合人民幣1445.27元),其他版本同樣降價160美元。今年的「6·18」活動將於5月13日開始,因此有渠道
2024年A股年報披露上市粵企韌性凸顯,研發投入成增長新引擎 - 天天要聞

2024年A股年報披露上市粵企韌性凸顯,研發投入成增長新引擎

2024年A股上市公司年報披露日前落下帷幕,面對複雜多變的國內外環境,A股上市公司營收與凈利潤增速小幅回落,但盈利面有所優化:74.55%的公司實現盈利,63.78%的公司凈利潤同比正增長,盈利企業數量與利潤增長比例均較上年提升。這一表現折射出中國經濟的韌性——企業通過降本增效、技術創新等方式改善盈利情況。作為上市公...
日本松下集團宣布將全球裁員1萬人;蘋果首款摺疊屏iPhone關鍵部件已送樣|Do早報 - 天天要聞

日本松下集團宣布將全球裁員1萬人;蘋果首款摺疊屏iPhone關鍵部件已送樣|Do早報

【供應鏈公司:蘋果首款摺疊屏iPhone關鍵部件已送樣】有媒體從供應鏈公司人士處獲悉,蘋果給供應商提供的出貨目標指引為2026年下半年推出首款摺疊屏手機,是一款「大摺疊屏iPhone」。該供應鏈公司是蘋果手機的多個零部件供應商。該供應鏈公司表示,希望進入摺疊屏iPhone的關鍵部件供應商名單,近期相關部件已送樣測試;但要...