機器之心報道
作者:張倩、澤南
世界模型的進度條,最近坐上了火箭。
去年 11 月,兩家創業公司打造的 Oasis,首次在開源世界模型中實現了實時、可玩、可交互。生成的虛擬環境不僅包含畫面,也體現出了對物理和遊戲規則的理解。
Oasis 世界模型的演示動畫。
今年 4 月,微軟開源的交互式世界模型 MineWorld,再次提升了視覺效果,大幅提升了動作生成的一致性。
MineWorld 模型的生成效果。
上個星期,又有國外創業公司開源了 「多元宇宙」,能讓不同玩家在一個世界模型里進行遊戲。
眼看三維世界的 AI 研究越來越多,英偉達人工智能總監、傑出科學家 Jim Fan 提出了「物理圖靈測試」,要給具身智能設立一個像圖靈測試一樣的標準:如果你分辨不出一個現實世界場景是不是由 AI 布置出來的,那完成任務的 AI 就可以認為通過了測試。
從前沿技術、應用再到測試基準,我們正在見證技術的全面興起,眾多科技公司蜂擁而入,彷彿大模型的爆發又要重演一遍。或許過不了多久,計算平台處理的單位就不再是 token,而是物理世界中的原子了。
今天又有更大的新聞曝出:5 月 13 日,崑崙萬維宣布開源交互式世界基礎模型 Matrix-Game,這不僅是世界模型技術向前邁進的一大步,更是空間智能領域交互式世界生成的重要里程碑。
- Github:https://github.com/SkyworkAI/Matrix-Game
- HuggingFace:https://huggingface.co/Skywork/Matrix-Game
- 技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
- 項目主頁:https://matrix-game-homepage.github.io
作為一款世界基礎模型,Matrix-Game 能夠生成完整可交互的遊戲世界,能夠對人類輸入的操作指令進行正確響應,保留了遊戲世界的空間結構與物理特性,畫面也更加精緻,超越了以往所有類似開源世界模型。
當然,它應用的應用範圍不僅限於遊戲,對於具身智能體訓練與數據生成、影視與元宇宙內容生產也有重要意義。
崑崙萬維表示,Matrix-Game 讓世界不再只是被觀看,而是被探索、被操控、被創造。這種主動式的探索或許正是空間智能發展的關鍵所在。
超越微軟開源的交互式世界模型
Matrix-Game 強在哪兒?
Matrix-Game(17B+)是崑崙萬維 Matrix 系列模型在交互式世界生成方向的首次落地,也是世界模型領域工業界首個開源的 10B + 大模型。
早在今年 2 月, 崑崙萬維正式推出 Matrix-Zero 世界模型,邁出了其探索空間智能的關鍵一步。
崑崙萬維表示,Matrix-Zero 其實包含兩個子模型 —— 一個用於 3D 場景生成,另一個用於可交互的視頻生成。
當時就有人問:這個可交互的視頻生成模型可以用來做遊戲嗎?
幾個月後,崑崙萬維給出了答案。這次發佈的 Matrix-Game 就是可交互視頻生成模型在遊戲方向的落地,它能夠根據用戶輸入(鍵盤指令、鼠標移動等)生成連貫、可控的遊戲互動視頻。
和行業內的其他模型相比,它有以下幾個特點:
1. 可以實現細粒度的用戶交互控制。
在游戲裏,你可以通過按「W、S、A、D、Space、Attack」以及這些鍵的組合實現自由移動和攻擊。在 Matrix-Game 創造的「我的世界(Minecraft)」遊戲世界裏,你可以得到相同的體驗,無論控制信號是連續的(如視角轉換)還是離散的(如前進、跳躍),而且每次移動都伴隨着景物的變化。
比如在下面這個「前進 + 攻擊」的場景中,遊戲人物穿過一片樹林來到池塘前,代表樹木的方塊在受到攻擊後被破壞,這是模型生成的環境反饋信號。而且,雖然池塘和後面的山體大部分被樹木遮擋,但模型依然生成了合理的結果,使得整個過程的景物變化非常絲滑。
在一個「前進 - 向左 - 前進」的長鏡頭組合移動場景中,模型不僅嚴格遵守了用戶的控制指令,還生成了豐富的景物變化,比如沒入水中的逼真過程。
2. 生成效果具有高保真視覺與物理一致性。
在視頻生成領域,能否保持視覺一致性、遵循物理規律是判斷視頻質量的試金石。但從業界的各種翻車視頻來看,這些很難做好,更別說在交互視頻這種需要推理交互效果的視頻生成形式中。
但 Matrix Game 的表現令人眼前一亮,在交互中能生成物理上合理、視覺上一致的結果。
比如,在下面這個左右移動的場景中,草叢中的花有時會被樹榦遮擋,但隨着腳步的進一步移動又會重現,這說明模型具有保持視覺一致性的能力。
再比如,在一個跳躍的操作中,我們能夠看到河裡的景物隨着視角的變化而變化(跳起來之後,視角變高,能看到更全面的水底畫面)。這都是模型根據所掌握的物理規律進行「腦補」的結果。
3. 擁有多場景泛化能力
在前面的例子中,我們已經看到,Matrix Game 能夠生成非常豐富的 Minecraft 遊戲場景,比如森林、沙灘、河流、平原等,這些環境涵蓋不同地形、天氣和生物群系。
其實,除此之外,它還能向非 Minecraft 遊戲環境泛化,生成城市、古建等開放式場景的互動視頻。
4. 具有系統化的評估體系
對於交互式視頻生成這種相對較新的模型,應該從哪些維度評估生成質量?如果不想清楚這個問題,模型就很難有明確的優化方向。為了解決這一問題,崑崙萬維提出了一套專為 Minecraft 世界建模設計的統一評測框架 —— GameWorld Score。
具體來說,GameWorld Score 從視覺質量、時間一致性、交互可控性、物理規則理解這四個維度來評價模型。視覺質量是指每一幀圖像的清晰度、結構一致性與真實感,這也是人類感知視頻質量的幾個重要維度。時間一致性、交互可控性和物理規則理解上文已經提及。這幾個維度合在一起,首次實現了對可交互視頻感知質量 + 控制能力 + 物理合理性的全方位衡量,補齊了現有基準的短板。
在這個基準上,Matrix Game 與知名創業公司 Decart 的開源方案 Oasis 和微軟的開源模型 MineWorld 進行了 PK,在四大維度上均取得領先成績。
圖源:Matrix-Game 技術報告
在雙盲評測中,Matrix-Game 生成的視頻評分也是大幅度領先:
圖源:Matrix-Game 技術報告
在控制性上,Matrix-Game 在「運動」、「攻擊」等動作上實現了超過 90% 的準確率,細粒度視角控制下依然可以保持高精度響應。
圖源:Matrix-Game 技術報告
接下來是場景泛化能力,在 8 大典型 Minecraft 場景中,Matrix-Game 保持了全面領先,展現出卓越的環境適應性,這意味着它可以廣泛應用於較複雜、動態的虛擬世界交互任務。
圖源:Matrix-Game 技術報告
可見,不論是從數據、模型還是實測角度來看,Matrix-Game 都樹立了當前交互式世界模型的新標杆。
Matrix-Game 是怎樣練成的?
在崑崙萬維發佈的技術報告中我們可以發現,Matrix-Game 取得的優異成績主要得益於研究團隊在數據、模型架構等方面做出的技術創新。
精挑細選的 Matrix-Game-MC 數據集
目前,業界已有越來越多的研究嘗試讓世界模型生成遊戲場景,但它們往往難以有效捕捉物理規則,泛化能力有限。
Matrix-Game 改變了這一現狀。它是一個參數規模達 17B 的世界基座模型,專註於交互式圖像到世界的生成,通過兩階段訓練策略(無標籤數據預訓練 + 標註數據可控訓練)訓練而來,其中用到了崑崙萬維自主構建的大規模數據集 ——Matrix-Game-MC。
Matrix-Game-MC 數據集涵蓋從無標籤預訓練數據到精細標註的可控視頻全流程。其中,無標籤預訓練數據來自 MineDojo 數據集中的視頻資源,研究團隊利用 MineDojo 工具系統性地採集了約 6000 小時的原始 Minecraft 遊戲視頻,並設計了三階段過濾機制,依次對畫質美學、動態合理性與視角穩定性等方面進行篩選,最終獲得了超過 2700 小時的中質量數據和 870 小時的高質量數據,用於支持基模型的無監督預訓練。
有標籤部分則是採用探索代理(Exploration Agent)、程序化模擬(Unreal Procedural Simulation)兩種策略混合生成的可控監督數據,包括高質量的《我的世界》遊戲內容和在虛幻引擎(Unreal Engine)中手動構建的模擬交互場景,不僅包含精確的鍵盤與鼠標控制信號,也提供位置信息、動作標籤及環境反饋信號,體量約 1000 小時。
另外得益於 Unreal 數據的融入,Matrix-Game 在更通用遊戲場景的泛化上展現出了明顯的優勢。
圖像到世界建模的模型架構
Matrix-Game 的目標是能夠內化真實的物理交互、語義結構並支持交互式的視頻生成。
從模型架構上看,Matrix-Game 的整體架構圍繞圖像到世界建模(Image-to-World Modeling)的方式設計。正如 2 月份 Matrix-Zero 所展示的,該系列模型受空間智能啟發,純粹從原始圖像中學習,可參考單張圖像生成能交互的視頻內容。它通過構建一個一致的場景來學習理解世界,不依賴語言提示,僅基於視覺信號對空間幾何、物體的運動及物理交互進行建模。
其中,視覺編碼器或多模態主幹網絡處理的參考圖像作為主條件輸入,在高斯噪聲及用戶動作條件下,由 DiT 生成潛在表示,然後通過 3D VAE 解碼器將其解碼為連貫的視頻序列。
MatrixGame 能夠直接通過視覺內容感知、解讀和建模世界,可以實現一致且結構化的理解。結合用戶的動作輸入,世界模型可以像 AI 圖像生成工具一樣直接生成「3D 遊戲畫面」。為了避免此前很多世界模型生成長時序內容不停變化的齣戲情況,Matrix-Game 每次生成會以之前的 5 幀運動作為上下文逐段遞進生成,保證了輸出內容在時間上的連貫性。
在交互可控的問題上,人們輸入的鍵盤動作(如跳躍和攻擊)以離散的 token 表達,視角的移動則以連續的 token 表達。作者使用 GameFactory 的控制模塊,同時融入了多模態 Diffusion Transformer 架構,還使用 CFG 技術提升了控制信號響應的魯棒性。
簡單總結一下,Matrix-Game 經過了數千小時高質量數據的訓練,通過創新的模型架構既實現了對人類交互動作的準確反應,又能保持生成內容的一致連貫,進而實現了從圖像到世界生成的突破。
技術發展到這種程度,世界模型在快速生成遊戲、動態視頻生成等應用上已經讓人看到了希望。
崑崙萬維的空間智能願景
遠不止遊戲
走向多模態、3D 世界,是生成式 AI 的下一個發展大方向。
在去年的一個演講中,斯坦福大學教授李飛飛曾指出,過去幾十年,尤其是深度學習變革的十多年裡,我們在視覺智能方面取得了巨大進步,但目前的視覺智能仍存在局限,主要集中在二維圖像的識別和理解。而現實世界是三維的,要真正解決視覺問題,並將其與行動聯繫起來,就必須發展空間智能。
空間智能是朝着全面智能邁出的一個基本且關鍵的步驟。只有讓機器具備空間智能,才能使其更好地理解三維世界,從而實現更複雜、更高級的智能。
崑崙萬維的 Matrix-Game 是空間智能領域交互式世界生成的重要里程碑,將為多個領域的發展帶來重要影響。
首先,從內容生產的角度來看,Matrix-Game 可以支持更低成本、更高自由度的豐富、可控的遊戲地圖與任務環境生成,助力遊戲開發。
此外,它還可以與崑崙萬維的其他 AI 產品聯動,比如天工大模型能為 Matrix-Game 生成的遊戲世界提供更智能的 NPC 交互邏輯;Mureka 能為這些動態生成的場景和視頻提供匹配的背景音樂和音效;SkyReels 可以為生成的遊戲提供更多畫面和劇情。這些產品就像一塊一塊的拼圖,一旦整合到一起,能助力的不止是遊戲生產,還有影視、廣告、XR 等內容的生產。
其次,從科研角度來看,Matrix-Game 所代表的空間智能是一個極具潛力的方向,因為它和具身智能等方向的發展息息相關,谷歌、微軟等大玩家都在此方向發力。Matrix-Game 作為中國首批具備可交互視頻生成能力的世界模型,對於推動國內空間智能領域發展有重要意義 。
「實現通用人工智能,讓每個人更好地塑造和表達自我」,這是崑崙萬維的使命。 這個使命在空間智能時代有了更深遠的意義。當人類能在三維世界中自由創造和交互,當想像力不再受制於技術門檻,我們才真正開啟了表達自我的新維度。
過去半年多時間,崑崙萬維在獎勵模型、多模態、推理、視頻生成等方向開源了一系列 SOTA 級別模型,如今又在空間智能方向再下一城。可以說,從二維到三維,從語言大模型到多模態生成再到如今的交互式世界模型,崑崙萬維的技術布局越來越清晰:構建一個完整的 AI 創作生態。在這個生態中,每個人都能找到自己的創新空間,每個創意都有機會快速變成產品。一個想像力真正成為生產力的時代正在加速到來。