Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產

2025年03月22日19:12:02 科技 1019



Roblox,這個備受青少年喜愛的在線遊戲平台,正通過引入 AI 技術,進一步革新遊戲的創作體驗。 據了解,曾獲選「兒童票選獎最受歡迎遊戲」的 Roblox 允許用戶設計自己的遊戲、物品及衣服,以及遊玩自己和其他開發者創建的各種不同類型的遊戲。 而現在,用戶可以藉助 AI 來完成這些創作了。


近日,Roblox 發佈了一個用於 3D 智能的基礎模型 Cude。據介紹,Roblox 的目標是構建一個可以生成 Roblox 遊戲各方面體驗的 3D 智能基礎模型,從生成 3D 物體和場景到人物角色,再到描述事物行為的編程腳本。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞
Roblox 創始人兼 CEO David Baszucki 的推文

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox 還在 Hugging Face 上線了一個 Web 應用,也已經有不少網友分享了他們各自的生成結果。這裡我們也來嘗試一番。

首先,讓 Cude 生成一個三頭六臂的男孩(a boy with 3 heads and 6 arms):

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這和我們常見的哪吒形態可真是相去甚遠。下面再來個更加日常一些的事物:一台老式打字機(An old-fashioned typewriter)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

這一次 Cube 的表現就好多了。多次嘗試後,我們發現,Cube 的整體效果目前還只能說是一般 —— 在生成日常可見的事物表現會好一點,略微超出常識的東西都會讓它給出與指令不符的結果,比如讓它生成一隻手叉腰站立的貓(A cat standing with hands on hips)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

下面我們就來具體看看 Roblox 的這項研究。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

  • 論文標題:Cube: A Roblox View of 3D Intelligence
  • 論文地址:https://arxiv.org/pdf/2503.15475
  • 項目地址:https://github.com/Roblox/cube
  • 試用鏈接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作為一家遊戲公司,Roblox 開發這個 3D 智能基礎模型的動機非常明顯。

他們表示:「我們將此模型設想為各種協作助手的基礎 —— 可以幫助開發者創造 Roblox 體驗的各個方面,從創建單個 3D 對象(例如,製作帶翅膀的摩托車)到完整的 3D 場景布局(例如,創建一個未來風格雲朵城市),再到穿戴裝備的人物角色(例如,生成一個能夠進行牆壁跳躍的外星忍者)到描述對象行為、交互和遊戲邏輯的腳本(例如,當玩家靠近門並攜帶金鑰匙時,讓門打開)。」

基於這些設想,他們首先確立了三個核心設計要求:

  • 能從稀疏的多模態數據中聯合學習;
  • 可通過自回歸模型處理無界的輸入 / 輸出大小;
  • 能通過多模態輸入 / 輸出與人類和其他 AI 系統協作。

當然,理想雖然很豐滿,甚至涉及到「元宇宙」等概念,但現實的路還是得一步步地走。這一次發佈的 Cube 模型是 Roblox 向 3D 智能基礎模型邁出的第一步。

具體來說,他們關注的核心是 3D 形狀的 token 化——畢竟幾何形狀應該是這個基礎模型的核心數據類型。

他們的研究表明,新提出的 token 化方案可以用來構建多種應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成,如圖 1 和 2 所示。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞


Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

形狀 token 化

為了忠實地捕捉各種幾何特性,包括光滑的表面、銳利的邊緣、高頻細節,需要一種具有足夠表現力的 3D 幾何表示,其可用作多模態自回歸序列模型的輸入和輸出 token。

立足於這樣的需求,Roblox 從 3DShape2VecSet 等連續形狀表示開始,並將其調整為離散 token,以實現對跨模態的輸入和輸出的原生處理 —— 類似於 Chameleon 等混合模態基礎模型。

如圖 3 所示,Cube 的高層架構採用了編碼器 - 解碼器設計,其會將輸入的 3D mesh 編碼成一種隱含表徵,而這種隱含表徵之後又可被解碼成一種隱式佔用場(implicit occupancy field)。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中一個關鍵區別在於會通過一個額外的向量量化過程來離散化這個連續的隱含表徵,而由於其不可微分的性質,這又會帶來額外的難題。

為此,他們提出了兩種技術:隨機梯度捷徑和自監督隱含空間正則化。

他們還提出了另一項架構改進:使用相位調製位置編碼。其作用是能提高基於感知器的 Transformer 在交叉注意力層中為空間不同點消歧的能力。

該團隊表示:「這些架構變化使我們訓練出的形狀 token 化器可以忠實地捕捉各種形狀,同時產生適合用於訓練基於 token 的混合模態基礎模型的離散 token。」

相位調製位置編碼

為了將形狀編碼成一個緊湊的隱含表示,研究者首先從其表面採樣 _ 個點以創建一個點雲 P。先前的工作在使用 transformer 網絡處理 P 之前,通過正弦位置編碼函數 (・) 對其進行嵌入:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中 () 分別應用於 P 中三個坐標通道 ∈ [, , ] 的每一個,且 _ = 2⌊/2⌋, _ = /2 ( mod 2),對於 = 1,・・・,,其中 是基頻的數量。

(・) 函數的周期性特性導致在空間中相隔 2/_整數倍的點會在第個通道中被映射為相同的編碼。這一現象使得空間上相距較遠的點可能會映射到相似的嵌入向量(圖 4a),而這些向量在經過交叉注意力層的點積運算後難以被有效區分。由於嵌入無法區分空間上相距較遠的點,相應地,也無法區分不同形狀表面的特徵,最終導致形狀重建質量下降。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

為了解決這個問題,需要一種新型技術來編碼點,使其不僅能像傳統位置編碼那樣捕獲多尺度特徵,還能在點積注意力機制中保持空間上相距較遠的點的區分性。研究者從相位調製技術中汲取靈感,提出了相位調製位置編碼 (PMPE)。PMPE 在所有正弦函數上調製相位偏移,並使用嵌入函數_PM,定義為:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

其中() 是傳統的編碼函數,是控制通道間相位變化率的超參數。這裡的 ()(1-/) 項用於改變基頻,以避免() 和′() 之間的共振。

與使用指數增長頻率來捕獲多尺度特徵的() 不同,′() 對每個通道使用相同的頻率/2,但通過的非線性函數來改變相位偏移′。這種非線性相位調製確保了空間上相距較遠的點在映射到嵌入空間時保持區分性,如圖 4b 所示。

實驗表明,PMPE 顯著提高了重建保真度,特別是對於複雜的幾何細節。PMPE 還減少了例如色斑 (disco) 等偽影的產生。

用於梯度穩定化的隨機線性捷徑

在將輸入形狀編碼為連續隱向量後,研究者採用最優傳輸 VQ(optimal transport VQ)將隱向量轉換為離散 token 序列。由於 VQ-VAE 中的量化層涉及不可微分的碼本嵌入(codebook embedding)分配,可能導致訓練不穩定。

研究者引入了額外的線性捷徑層,可隨機跳過整個量化瓶頸。他們以 50% 概率通過線性層投影編碼器的隱向量,直接輸入解碼器。這與直接捷徑(direct shortcut)方法不同,後者使用恆等層而非線性層,實驗證明表現不佳。

額外的線性層使捷徑路徑能作為量化路徑的教師網絡,防止陷入局部最小值。實驗證明這種方法可降低訓練和驗證損失,並能提高訓練穩定性。

通過自監督損失學習幾何聚類的隱含表示

借鑒視覺模型研究,該研究採用自監督損失來正則化隱含空間,使相似形狀產生接近的隱向量,圖 5 展示了該編碼器的自監督學習流程。研究者維護了編碼器的指數移動平均版本作為教師模型,學生編碼器接收掩碼輸入,教師編碼器訪問完整查詢集。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

兩個編碼器使用額外 MLP 頭生成「原型分數(prototype scores)」,自監督損失是這些分數間的交叉熵,通過 λ_SSL 平衡與重建損失的關係。這使幾何相似形狀能編碼為高餘弦相似度的隱向量。

如圖 6 所示,將幾何相似形狀編碼為具有高餘弦相似度的隱向量的能力自然地從額外的自監督損失中產生。研究者預計這一特性將對廣泛的形狀處理應用證明其價值。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

實驗

架構詳情

該模型使用結構相似的編碼器 (13 層) 和解碼器 (24 層) Transformer,每層寬度 768,共 12 個注意力頭,總參數量 2.73 億。使用 512 個隱含編碼 token,16,384 大小的碼本,嵌入維度 32。PMPE 參數 β = 0.125,自監督損失 λ_SSL = 0.0005。VQ 層採用 OptVQ 變體,集成最優傳輸方法。

訓練數據

研究在約 150 萬個 3D 物體資產上訓練模型,包括 Objaverse 等公開數據集和 Roblox Creator Store 資產。所有資產歸一化至 [-1,1] 範圍內,訓練時在表面採樣 8,192 點用於輸入編碼,額外採樣 8,192 點計算佔用損失(occupancy loss)。

模型比較

研究比較了離散形狀 tokenizer 與一種連續變體,並與 CraftsMan(在 17 萬物體上訓練)進行對比。在 Toys4K 數據集上評估表面交並比(S-IoU)和體積交並比(V-IoU)表明,該研究的 VQ-VAE 模型和連續變體均優於 CraftsMan,但連續變體仍優於離散模型,表明向量量化過程存在幾何保真度損失。

如表 1 和圖 7 所示,該研究提出的 VQ-VAE 模型(Ours-VQ)和連續變體(Ours-KL)在 S-IoU 和 V-IoU 指標上均優於 CraftsMan。連續變體仍然優於其對應的離散模型,這表明通過向量量化過程仍然存在一些幾何保真度的損失。研究團隊計劃在未來的工作中彌合這一差距。

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

最後,Roblox 在論文中展示了一些具體的應用,包括文本到形狀生成、形狀到文本生成和文本到場景生成:

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

Roblox發佈3D智能基礎模型Cube,一句話生成遊戲資產 - 天天要聞

更多詳情請前往原論文一探究竟。


科技分類資訊推薦

維諦技術360AI全鏈熱管理解決方案:破解「超跑級」算力挑戰 - 天天要聞

維諦技術360AI全鏈熱管理解決方案:破解「超跑級」算力挑戰

數字時代,算力即未來,當下以人工智能、大數據為代表的新一代信息技術迅猛發展,驅動全球算力需求呈現爆髮式增長。作為承載海量數據處理和智能計算的核心基礎設施,智算中心的建設水平與運行能力,直接關係到數字經濟發展和國家競爭力。
微信上線「短劇」小程序;傳宇樹C輪融資估值超100億,騰訊阿里吉利聯投;OpenAI警告:高生物武器風險模型將出現 |極客早知道 - 天天要聞

微信上線「短劇」小程序;傳宇樹C輪融資估值超100億,騰訊阿里吉利聯投;OpenAI警告:高生物武器風險模型將出現 |極客早知道

機械人明星企業宇樹被曝 C 輪融資落定:中國移動、騰訊、錦秋、阿里、螞蟻、吉利共同領投,估值超 100 億6 月 19 日消息,據晚點 LatePost 爆料,宇樹科技已於近期完成了去年底開啟的 C 輪融資,由中國移動旗下基金、騰訊、錦秋、阿里、螞蟻和吉利資本共同領投,宇樹的大部分老股東跟投。宇樹投前估值目前超過 100 億元人民...
微信上線「短劇」小程序;傳宇樹C 輪融資估值超 100 億,騰訊阿里吉利聯投;OpenAI 警告:高生物武器風險模型將出現 - 天天要聞

微信上線「短劇」小程序;傳宇樹C 輪融資估值超 100 億,騰訊阿里吉利聯投;OpenAI 警告:高生物武器風險模型將出現

機械人明星企業宇樹被曝 C 輪融資落定:中國移動、騰訊、錦秋、阿里、螞蟻、吉利共同領投,估值超 100 億6 月 19 日消息,據晚點 LatePost 爆料,宇樹科技已於近期完成了去年底開啟的 C 輪融資,由中國移動旗下基金、騰訊、錦秋、阿里、螞蟻和吉利資本共同領投,宇樹的大部分老股東跟投。宇樹投前估值目前超過 100 億元人民...
小黃蜂家政:本地生活服務的拓客新引擎​ - 天天要聞

小黃蜂家政:本地生活服務的拓客新引擎​

在本地生活服務領域,家政行業的競爭日益激烈,終端門店面臨著拓客難、引流難的困境。然而,小黃蜂家政以其創新的模式和強大的平台優勢,為家政終端門店帶來了新的生機與活力,成為了門店引流拓客的有力助手。小黃蜂家政摒棄了傳統家政服務的單一模式,創新性
7199元!華為新機定檔:6月26日,即將登場! - 天天要聞

7199元!華為新機定檔:6月26日,即將登場!

華為Mate70系列剛發佈的時候,真的是一機難求啊。一機難求導致的結果,首先就是長時間處於無貨狀態,想買根本買不到。就算是部分渠道有貨,想買的話也必須加錢。後來為了緩解壓力,華為推出了華為Mate70Pro優享版。你還別說,華為Mate70
華為發佈「智聚大上行」技術:5.5G上行速率提升15% 時延降低30% - 天天要聞

華為發佈「智聚大上行」技術:5.5G上行速率提升15% 時延降低30%

快科技6月20日消息,在2025 MWC上海期間,中國電信聯合華為舉辦5G-A「智聚大上行」創新發佈會。會上,雙方聯合發佈了「基於智能編排和上行頻譜解耦與池化,形成智能大上行技術」最新創新技術成果。據了解,智聚大上行創新技術,利用AI模型實時預測信道質量以及通過AI實現時頻制空功五維協同調度,多頻段智能選擇,根據業務...
對話宇樹科技:機械人「燒腦」又燒錢,竟還有比這兩樣更缺的 - 天天要聞

對話宇樹科技:機械人「燒腦」又燒錢,竟還有比這兩樣更缺的

6月16日,摩根士丹利發佈研究報告稱,中國機械人市場規模預計以每年23%的增幅快速增長,在未來四年翻一倍以上,鞏固中國在全球機械人領域的領先地位。就在同一天,國家統計局公布數據顯示,2025年5月中國工業機械人產量同比飆升35.5%,達到6.9萬台,服務機械人產量躍升13.8%,達到120萬台。人形機械人演示競技太極動作。受...