Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產

2025年03月22日19:12:02 科技 1019



Roblox,這個備受青少年喜愛的在線遊戲平台,正通過引入 AI 技術,進一步革新遊戲的創作體驗。 據了解,曾獲選「兒童票選獎最受歡迎遊戲」的 Roblox 允許用戶設計自己的遊戲、物品及衣服,以及遊玩自己和其他開發者創建的各種不同類型的遊戲。 而現在,用戶可以藉助 AI 來完成這些創作了。


近日,Roblox 發布了一個用於 3D 智能的基礎模型 Cude。據介紹,Roblox 的目標是構建一個可以生成 Roblox 遊戲各方面體驗的 3D 智能基礎模型,從生成 3D 物體和場景到人物角色,再到描述事物行為的編程腳本。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞
Roblox 創始人兼 CEO David Baszucki 的推文

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox 還在 Hugging Face 上線了一個 Web 應用,也已經有不少網友分享了他們各自的生成結果。這裡我們也來嘗試一番。

首先,讓 Cude 生成一個三頭六臂的男孩(a boy with 3 heads and 6 arms):

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這和我們常見的哪吒形態可真是相去甚遠。下面再來個更加日常一些的事物:一台老式打字機(An old-fashioned typewriter)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這一次 Cube 的表現就好多了。多次嘗試後,我們發現,Cube 的整體效果目前還只能說是一般 —— 在生成日常可見的事物表現會好一點,略微超出常識的東西都會讓它給出與指令不符的結果,比如讓它生成一隻手叉腰站立的貓(A cat standing with hands on hips)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

下面我們就來具體看看 Roblox 的這項研究。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

  • 論文標題:Cube: A Roblox View of 3D Intelligence
  • 論文地址:https://arxiv.org/pdf/2503.15475
  • 項目地址:https://github.com/Roblox/cube
  • 試用鏈接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作為一家遊戲公司,Roblox 開發這個 3D 智能基礎模型的動機非常明顯。

他們表示:「我們將此模型設想為各種協作助手的基礎 —— 可以幫助開發者創造 Roblox 體驗的各個方面,從創建單個 3D 對象(例如,製作帶翅膀的摩托車)到完整的 3D 場景布局(例如,創建一個未來風格雲朵城市),再到穿戴裝備的人物角色(例如,生成一個能夠進行牆壁跳躍的外星忍者)到描述對象行為、交互和遊戲邏輯的腳本(例如,當玩家靠近門並攜帶金鑰匙時,讓門打開)。」

基於這些設想,他們首先確立了三個核心設計要求:

  • 能從稀疏的多模態數據中聯合學習;
  • 可通過自回歸模型處理無界的輸入 / 輸出大小;
  • 能通過多模態輸入 / 輸出與人類和其他 AI 系統協作。

當然,理想雖然很豐滿,甚至涉及到「元宇宙」等概念,但現實的路還是得一步步地走。這一次發布的 Cube 模型是 Roblox 向 3D 智能基礎模型邁出的第一步。

具體來說,他們關注的核心是 3D 形狀的 token 化——畢竟幾何形狀應該是這個基礎模型的核心數據類型。

他們的研究表明,新提出的 token 化方案可以用來構建多種應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成,如圖 1 和 2 所示。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞


Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

形狀 token 化

為了忠實地捕捉各種幾何特性,包括光滑的表面、銳利的邊緣、高頻細節,需要一種具有足夠表現力的 3D 幾何表示,其可用作多模態自回歸序列模型的輸入和輸出 token。

立足於這樣的需求,Roblox 從 3DShape2VecSet 等連續形狀表示開始,並將其調整為離散 token,以實現對跨模態的輸入和輸出的原生處理 —— 類似於 Chameleon 等混合模態基礎模型。

如圖 3 所示,Cube 的高層架構採用了編碼器 - 解碼器設計,其會將輸入的 3D mesh 編碼成一種隱含表徵,而這種隱含表徵之後又可被解碼成一種隱式佔用場(implicit occupancy field)。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中一個關鍵區別在於會通過一個額外的向量量化過程來離散化這個連續的隱含表徵,而由於其不可微分的性質,這又會帶來額外的難題。

為此,他們提出了兩種技術:隨機梯度捷徑和自監督隱含空間正則化。

他們還提出了另一項架構改進:使用相位調製位置編碼。其作用是能提高基於感知器的 Transformer 在交叉注意力層中為空間不同點消歧的能力。

該團隊表示:「這些架構變化使我們訓練出的形狀 token 化器可以忠實地捕捉各種形狀,同時產生適合用於訓練基於 token 的混合模態基礎模型的離散 token。」

相位調製位置編碼

為了將形狀編碼成一個緊湊的隱含表示,研究者首先從其表面採樣 _ 個點以創建一個點雲 P。先前的工作在使用 transformer 網路處理 P 之前,通過正弦位置編碼函數 (・) 對其進行嵌入:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中 () 分別應用於 P 中三個坐標通道 ∈ [, , ] 的每一個,且 _ = 2⌊/2⌋, _ = /2 ( mod 2),對於 = 1,・・・,,其中 是基頻的數量。

(・) 函數的周期性特性導致在空間中相隔 2/_整數倍的點會在第個通道中被映射為相同的編碼。這一現象使得空間上相距較遠的點可能會映射到相似的嵌入向量(圖 4a),而這些向量在經過交叉注意力層的點積運算後難以被有效區分。由於嵌入無法區分空間上相距較遠的點,相應地,也無法區分不同形狀表面的特徵,最終導致形狀重建質量下降。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

為了解決這個問題,需要一種新型技術來編碼點,使其不僅能像傳統位置編碼那樣捕獲多尺度特徵,還能在點積注意力機制中保持空間上相距較遠的點的區分性。研究者從相位調製技術中汲取靈感,提出了相位調製位置編碼 (PMPE)。PMPE 在所有正弦函數上調製相位偏移,並使用嵌入函數_PM,定義為:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中() 是傳統的編碼函數,是控制通道間相位變化率的超參數。這裡的 ()(1-/) 項用於改變基頻,以避免() 和′() 之間的共振。

與使用指數增長頻率來捕獲多尺度特徵的() 不同,′() 對每個通道使用相同的頻率/2,但通過的非線性函數來改變相位偏移′。這種非線性相位調製確保了空間上相距較遠的點在映射到嵌入空間時保持區分性,如圖 4b 所示。

實驗表明,PMPE 顯著提高了重建保真度,特別是對於複雜的幾何細節。PMPE 還減少了例如色斑 (disco) 等偽影的產生。

用於梯度穩定化的隨機線性捷徑

在將輸入形狀編碼為連續隱向量後,研究者採用最優傳輸 VQ(optimal transport VQ)將隱向量轉換為離散 token 序列。由於 VQ-VAE 中的量化層涉及不可微分的碼本嵌入(codebook embedding)分配,可能導致訓練不穩定。

研究者引入了額外的線性捷徑層,可隨機跳過整個量化瓶頸。他們以 50% 概率通過線性層投影編碼器的隱向量,直接輸入解碼器。這與直接捷徑(direct shortcut)方法不同,後者使用恆等層而非線性層,實驗證明表現不佳。

額外的線性層使捷徑路徑能作為量化路徑的教師網路,防止陷入局部最小值。實驗證明這種方法可降低訓練和驗證損失,並能提高訓練穩定性。

通過自監督損失學習幾何聚類的隱含表示

借鑒視覺模型研究,該研究採用自監督損失來正則化隱含空間,使相似形狀產生接近的隱向量,圖 5 展示了該編碼器的自監督學習流程。研究者維護了編碼器的指數移動平均版本作為教師模型,學生編碼器接收掩碼輸入,教師編碼器訪問完整查詢集。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

兩個編碼器使用額外 MLP 頭生成「原型分數(prototype scores)」,自監督損失是這些分數間的交叉熵,通過 λ_SSL 平衡與重建損失的關係。這使幾何相似形狀能編碼為高餘弦相似度的隱向量。

如圖 6 所示,將幾何相似形狀編碼為具有高餘弦相似度的隱向量的能力自然地從額外的自監督損失中產生。研究者預計這一特性將對廣泛的形狀處理應用證明其價值。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

實驗

架構詳情

該模型使用結構相似的編碼器 (13 層) 和解碼器 (24 層) Transformer,每層寬度 768,共 12 個注意力頭,總參數量 2.73 億。使用 512 個隱含編碼 token,16,384 大小的碼本,嵌入維度 32。PMPE 參數 β = 0.125,自監督損失 λ_SSL = 0.0005。VQ 層採用 OptVQ 變體,集成最優傳輸方法。

訓練數據

研究在約 150 萬個 3D 物體資產上訓練模型,包括 Objaverse 等公開數據集和 Roblox Creator Store 資產。所有資產歸一化至 [-1,1] 範圍內,訓練時在表面採樣 8,192 點用於輸入編碼,額外採樣 8,192 點計算佔用損失(occupancy loss)。

模型比較

研究比較了離散形狀 tokenizer 與一種連續變體,並與 CraftsMan(在 17 萬物體上訓練)進行對比。在 Toys4K 數據集上評估表面交並比(S-IoU)和體積交並比(V-IoU)表明,該研究的 VQ-VAE 模型和連續變體均優於 CraftsMan,但連續變體仍優於離散模型,表明向量量化過程存在幾何保真度損失。

如表 1 和圖 7 所示,該研究提出的 VQ-VAE 模型(Ours-VQ)和連續變體(Ours-KL)在 S-IoU 和 V-IoU 指標上均優於 CraftsMan。連續變體仍然優於其對應的離散模型,這表明通過向量量化過程仍然存在一些幾何保真度的損失。研究團隊計劃在未來的工作中彌合這一差距。

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

最後,Roblox 在論文中展示了一些具體的應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成:

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發布3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

更多詳情請前往原論文一探究竟。


科技分類資訊推薦

模擬駕駛、真機飛行、火箭升空、戶外挑戰…今年暑假,一起去航空飛行造夢! - 天天要聞

模擬駕駛、真機飛行、火箭升空、戶外挑戰…今年暑假,一起去航空飛行造夢!

當火箭的尾焰劃破夜空星辰與大海的夢想再次照亮了我們的征途·中國航天2024年交出一張張碩果累累的成績單全年累計發射運載火箭68次發射次數創歷史新高杭州日報航空造夢夏令營2024年同樣也見證了近千名孩子逐夢寰宇的夢想實現做了六年的經典航空線路收穫了營員的滿滿好評2024年「一箭11星」的最強發射再次印證了中國航天的強...
8.3英寸起,「獨樹一幟」的小尺寸新機 - 天天要聞

8.3英寸起,「獨樹一幟」的小尺寸新機

小屏手機潮暫時告一段落,小尺寸平板的舞台已經搭好了。目前,聯想已推出拯救者 Y700 四代,接下來紅魔、小米、華為也有新機要發。再算上蘋果的 iPad mini(A17 Pro),今年的小平板選擇會比往年多不少,接下來給大夥簡單盤點一下。
75萬採購的路由器,網上只賣299?高校回應 - 天天要聞

75萬採購的路由器,網上只賣299?高校回應

5月11日,重慶三峽學院發布情況說明:近日我校「防火牆及DNS設備採購項目中標結果」引髮網民質疑,學校高度重視,成立專項工作組開展核實。因工作需要,我校需購買網路防火牆及DNS設備,在招標文書中明確提出了需滿足的技術標準。2025年5月6日該採購項目完成競爭性談判,擬中標供應商為豐都縣洪正商貿有限公司。5月9日我校...
微星MPG 272URX QD-OLED顯示器評測:絲般順滑的240Hz量子點屏幕 - 天天要聞

微星MPG 272URX QD-OLED顯示器評測:絲般順滑的240Hz量子點屏幕

現在顯示器市場的競爭特別激烈,各大廠商都在拼參數和品質,特別是在高端顯示器領域,各大品牌不斷推出令人驚嘆的產品,用來滿足玩家和專業用戶的需求。作為知名硬體廠商之一,微星近年來在顯示器領域表現是很搶眼的。今天和大家分享的是微星MPG 272URX QD-OLED顯示器的使用體驗。這款產品不僅搭載了QD-OLED技術,還融合了...
華為缺席、小米受挫,4月國產新能源降價潮邁入拐點 - 天天要聞

華為缺席、小米受挫,4月國產新能源降價潮邁入拐點

文 | 數讀智車在最新的微博中,雷軍直言,「過去一個多月,是創辦小米以來最艱難的一段時間。」這也是小米最艱難的時刻。乃至整個國產新能源,都進入了一段冷靜期。2025年的北京車展、上海車展,比往年更安靜了一些。車主站上特斯拉車頂、周鴻禕站上國產車車頂……這些往常年引起全網轟動的戲碼,並沒有上演。這似乎是一個...
億緯鋰能商用車電池科技日:8款開源電池新品全面覆蓋商用市場 - 天天要聞

億緯鋰能商用車電池科技日:8款開源電池新品全面覆蓋商用市場

【環球網科技報道 記者 張陽】2025年5月9日,億緯鋰能首屆商用車電池科技日暨開源電池新品發布會在廣東惠州舉辦。會上,億緯鋰能重點闡述了在新能源商用車領域的技術積澱與戰略布局,並且集中發布了8款開源電池產品,滿足從物流車的微面、輕卡到重卡的短倒、幹線再到客車和工程機械的全場景工況需求。億緯鋰能動力營銷中心...
綠洲文娛落子鄭州!沉浸式劇本殺旗艦店重構娛樂新場景 - 天天要聞

綠洲文娛落子鄭州!沉浸式劇本殺旗艦店重構娛樂新場景

2025年5月,中原沉浸娛樂市場迎來里程碑事件——國內知名文娛品牌綠洲文娛宣布其全國戰略布局的重要落子「綠洲實景沉浸式演繹劇本殺推理館」正式進駐鄭州國貿360商圈。這座斥資打造的千平方米娛樂綜合體以劇場級配置重構沉浸式體驗邊界,為中原玩家開