50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學

2025年03月22日17:10:16 科技 6064

metaspatial團隊 投稿

量子位 | 公眾號 qbitai

在三維空間理解任務中,讓視覺語言模型(vlm)生成結構合理、物理一致的場景布局仍是一項挑戰。以“請將這些傢具合理擺放在房間中”為例,現有模型儘管能夠識別圖像中的物體,甚至給出語義連貫的布局描述,但通常缺乏對三維空間結構的真實建模,難以滿足基本的物理約束與功能合理性。

為了解決這一問題,已有研究嘗試採用多智能體交互(multi-agent interaction)方法,通過多個語言模型或代理之間的迭代協商與驗證優化布局結果。然而,這類方法不僅計算成本高,而且在迭代過程中容易陷入死鎖,導致無法收斂至有效解。

另一類方法則通過構建大規模真實房間布局的描述語料,結合監督微調(supervised fine-tuning, sft)對模型進行訓練。這種方式可以在一定程度上提升模型基礎能力,但受到空間任務本身的限制:空間布局任務不存在唯一的標準答案。對於同一個輸入,合理的三維布局可以有多種形式,因此以單一ground truth為監督信號的sft方法無法全面覆蓋可能的合理解空間,限制了模型的泛化能力與生成多樣性。

針對這一挑戰,西北大學計算機系與基礎模型與生成式ai中心的研究人員潘震宇 (zhenyu pan) 以及其導師劉晗 (han liu) 提出了核心問題:是否可以通過規則驅動的強化學習策略,為視覺語言模型注入空間推理能力?

三維布局任務具備強化學習適用的若干關鍵特性:

  • 不存在標準解,目標是生成符合約束的多樣性解;

  • 缺乏精確標註,導致監督信號稀缺;

  • 存在可程序化檢測的目標函數,如物體重疊、越界、功能邏輯合理性等。

強化學習(reinforcement learning)通過獎勵函數(reward function)而非依賴人工標註,引導模型在與環境交互中不斷優化策略。這使其天然適用於空間布局這類缺乏唯一標準答案、解空間複雜多樣的任務。近年來,結合規則獎勵機制的強化微調範式(reinforcement fine-tuning, rft)已在結構化任務中取得顯著成果,如文本生成、數學推理、代碼理解等,典型代表包括deepseek-r1和openai o1。

然而,在三維空間推理這一融合視覺、語言與結構理解的多模態任務中,這一策略仍未被充分探索。

為此,他們提出了metaspatial框架。該方法首次將基於規則獎勵的rft策略成功遷移至視覺語言模型(vlms)的空間布局場景中,在僅使用約50條無ground truth數據的條件下,即可顯著提升模型的空間推理能力與布局生成質量。

具體而言,metaspatial構建了一套可程序化評估的獎勵函數,衡量布局結構是否合理、是否滿足物理約束,以及是否符合用戶偏好。同時引入多輪布局 refinement 機制,引導模型在訓練過程中逐步優化空間決策。藉助這一策略,模型無需依賴大規模標註數據,即可學習到具備泛化能力與結構適應性的空間推理策略

實驗結果顯示,metaspatial在多個空間生成指標上顯著優於傳統sft方法,充分驗證了基於規則獎勵的強化學習在三維空間智能建模中的有效性與通用性。

metaspatial:引入r1突破3d空間推理壁壘

metaspatial 將訓練3d空間推理過程建模為一個多輪決策過程,其基本形式是:給定一組多模態輸入,模型通過一系列推理步驟生成結構化布局輸出,並基於可程序化評估的獎勵信號進行策略優化。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

輸入與輸出形式

在每一輪交互中,metaspatial的輸入包括:

  • 場景圖像或房間結構圖;

  • 房間的幾何尺寸信息(長、寬、高);

  • 用戶提供的偏好描述(如功能用途、風格要求等);

  • 需要布局的目標物體列表(包含物體類型、狀態等)。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

模型輸出為兩個部分:

  1. 語言化的推理過程:記錄模型在布局時的決策理由;

  2. 結構化布局 json:每個物體的三維坐標位置(x, y, z)和名稱等,作為布局結果。

<think> the goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. here's how we can approach this: 1. **kitchen island**: place it centrally ... 2. **hanging pot rack**: hang it above ... ... let's compute the positions: - **kitchen island**: (3, 2.5, 0.45) - **hanging pot rack**: (3, 2.5, 0.65) ... now, let's generate the json output. </think> <answer> [{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......] </answer>

該布局json文件既作為最終輸出,也作為強化學習中的環境狀態,用於評估和反饋。

獎勵函數與懲罰機制設計

為了衡量布局結果的好壞,metaspatial構建了三級獎勵信號,分別從結構合法性、物理合理性和主觀偏好三個維度評價模型輸出:

1. 格式獎勵(format reward)

  • 檢查輸出的 json 是否完整;

  • 所有目標物體是否都被覆蓋;

  • 每個物體是否都包含完整的空間參數(x/y/z 坐標、尺寸、方向等)。

2. 物理獎勵(physics reward)

  • 利用輸出中的幾何信息重建場景;

  • 計算是否存在物體之間的重疊(collision);

  • 檢查物體是否越界、浮空或違反場景邊界;

  • 對不滿足物理約束的比例部分施加懲罰。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

3. 物理獎勵(physics reward)

  • 將輸出布局通過腳本用blender渲染為三維場景圖;

  • 輸入至 gpt-4o 進行審美評分;

  • 綜合評分其物理一致性、美學質量與用戶偏好匹配度。

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最終獎勵為三者的加權組合,提供連續型反饋信號,以供強化學習優化使用。

trajectory 生成與多輪布局優化

與傳統一次性生成不同,metaspatial 在訓練階段採用multi-turn rollout策略,允許模型對布局結果進行多輪 refinement:

  • 初始布局生成後,模型可查看自己生成的坐標結構與得分;

  • 根據獎勵反饋進行布局更新並重複多輪;

  • 每一輪的輸入、輸出、獎勵構成一條布局軌跡(trajectory);

  • 多輪優化後選取最終布局作為當前 episode 的最終結果。

這種機制不僅提高了模型的布局能力,也為策略訓練提供了更多的高質量決策路徑。

策略優化:基於 grpo 的強化學習訓練

為實現穩定、高效的策略更新,metaspatial引入了group relative policy optimization(grpo)。與常規的策略梯度方法不同,grpo 不依賴於單條軌跡進行更新,而是利用同一輸入樣本生成的多條trajectory作為一個group進行比較性學習。

具體過程如下:

  • 對於每組輸入,執行多次layout generation,得到若干個軌跡;

  • 比較這些候選軌跡的獎勵得分,計算相對優勢;

  • 根據組內得分排序結果,優化策略網絡,使高獎勵軌跡的概率增加,低獎勵軌跡的概率下降;

  • 避免了對某一“絕對最優”解的依賴,提升了學習過程的穩定性與策略的泛化能力。

藉助grpo,metaspatial能夠在樣本極少(如僅50條無標註數據)的情況下,穩定學得適應性強的空間決策能力。

metaspatial實驗結果

1. qwen2.5 的 7b 和 3b 兩個視覺語言模型(vlm)都從 metaspatial 框架中受益,但其中 7b 模型的性能提升更加顯著。相比之下,3b 模型仍然在輸出格式的生成方面存在困難,比如無法始終保持與輸入一致的物體數量和名稱,或是未能為所有物體持續穩定地提供完整的三維坐標(x, y, z)。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

2. 實驗結果表明,metaspatial 能夠有效提升qwen2.5-vl的3b和7b 模型的空間布局能力,但其中7b模型的提升更加明顯。具體表現為:隨着訓練的進行,7b模型能夠生成更長、更穩定、結構更清晰的響應,而3b模型的輸出則表現出較大的不一致性,其響應長度波動較大,最小值和最大值之間頻繁跳變,顯示出在保持輸出格式一致性方面的困難(例如:物體數量正確、結構化空間坐標完整等)。相比之下,7b模型的響應更加穩定,這也進一步印證了一個趨勢:規模更大的模型在強化學習驅動的空間推理任務中更具適應能力。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

3. 在“rl-before vs rl-after”的對比實驗中,metaspatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現。強化學習訓練前,模型生成的物體布局普遍混亂、錯位,且常出現物體漂浮、重疊或放置在不符合物理規律的位置等問題。訓練後,生成的布局則變得更加結構化、逼真,並且在語義上更加連貫,表現出更強的空間感知能力、物體對齊能力以及功能合理性。

50條數據解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學 - 天天要聞

這些結果進一步強化了一個核心結論:強化學習能夠有效優化視覺語言模型的空間推理策略,使其具備更自然、更實用的三維場景生成能力,可廣泛應用於如元宇宙、ar/vr 以及遊戲開發等多種現實場景中。

總結

總的來說,metaspatial的貢獻主要有下面四部分:

  1. 提出 metaspatial 框架:提出了 metaspatial,第一個基於強化學習(rl)的三維空間推理框架,使視覺語言模型(vlms)能夠在無需複雜後處理的情況下直接生成結構合理的三維場景。

  2. 引入多輪布局優化機制與 grpo 策略:設計了一種多輪布局 refinement 機制,結合 group relative policy optimization(grpo)方法,使模型能通過多次調整與推理路徑,學習更具泛化性與適應性的空間推理能力。

  3. 構建三重獎勵體系:設計了一套結構化評估體系,涵蓋格式檢測、物理合理性檢測與基於渲染的視覺評價,為強化學習提供自適應、可擴展的獎勵信號。

  4. 驗證方法有效性:在多種模型和空間場景上進行的實驗證明,metaspatial 能顯著提升模型在三維場景生成中的布局連貫性、物理一致性和整體質量。

目前,項目已全面開源,包含訓練代碼、評測流程、數據集生成腳本以及完整的數據集。

項目地址: https://github.com/pzyseere/metaspatial

科技分類資訊推薦

三款7000元附近RTX 5070筆記本對壘,誰更讓你心動? - 天天要聞

三款7000元附近RTX 5070筆記本對壘,誰更讓你心動?

不得不說,RTX 50系列浪潮來得很快,這麼快就有多款產品在7000元附近了,選擇面很大。當然,這裡的功勞主要是補貼,沒補貼的話,這些本還在9000元高位,但有了補貼後,實際價格也是我們需要正視的。這次,我們就找到三款價格在7000元附近的RTX 5070筆記本,看看哪款讓你心動。第一款,是七彩虹隱星P16 Pro,原價8999元,到...
未來智能駕駛圖鑑:車路協同成主流,道路兩側也安上雷達! - 天天要聞

未來智能駕駛圖鑑:車路協同成主流,道路兩側也安上雷達!

新能源汽車風口下,智能駕駛成為起飛的豬。國內供應鏈發展也十分迅猛,現在10萬級的車也能體驗智駕,那麼在未來,智能駕駛會達到什麼樣的狀態呢?答案是“車路協同”。車端智能是基礎現在帶智駕功能的車都有一定的硬件基礎做支撐,比如毫米波雷達、攝像頭、激光雷達、芯片等,通過這些硬件,可以採集車輛周圍的環境信息和信...
“英偉達已向中國三家企業通報” - 天天要聞

“英偉達已向中國三家企業通報”

據台灣《工商時報》網站5月3日報道,在針對中國市場的H20芯片遭美國政府禁售後,美國芯片大廠英偉達正加緊開發另一款符合美國出口規定的人工智能(AI)芯片,以繼續保住其在中國的市場份額。
金舟投屏文件輸出目錄設置方法 - 天天要聞

金舟投屏文件輸出目錄設置方法

金舟投屏文件輸出目錄怎麼設置?跟着我來操作。1、 打開金舟投屏應用2、 在金舟投屏窗口,點擊菜單按鈕。3、 在彈出的下拉菜單中,選擇設置選項。4、 進入設置窗口後,選擇點擊文件選項。5、 在文件窗口裡,點擊輸出目錄按鈕,於彈出窗口選擇文件輸出路徑,例如:D:文件保存金舟投屏。6、 點擊關閉即可完成操作(9777180)...
E-鑽文件加密大師:輕鬆加密文件保護數據安全 - 天天要聞

E-鑽文件加密大師:輕鬆加密文件保護數據安全

對電腦文件加密,能保護個人隱私與商業機密,提升重要文件安全性。1、 把重要文件放入一個文件夾,進行加密保護。2、 開啟E-鑽文件加密大師;3、 點擊加密按鈕,選擇要加密的文件夾,然後單擊確定。4、 選擇加密強度與模式;5、 請再次輸入密碼,然後點擊確認。6、 點擊加密文件,輸入密碼後即可打開。(9777179)...
Win7文件夾加密方法大全 - 天天要聞

Win7文件夾加密方法大全

如今,隱私的重要性日益凸顯。每個人都有自己的隱私,特別是在電腦中存儲了大量個人文件,其中一些是不想讓他人看到的重要資料。因此,我們需要為文件夾採取適當的保護措施。加密文件夾是最常用的方式之一,而加密方法多種多樣。這次我們將分享一種簡單易行的加密技巧,供大家參考使用。1、 在百度搜索強傑隱身俠下載,下載...
隱身俠的軟硬件區別 - 天天要聞

隱身俠的軟硬件區別

隱身俠是保障信息安全的利器,可用於保護和備份電腦、U盤、移動硬盤及加密雲盤中的重要文件與私密數據。它能有效防範因設備維修、丟失、被入侵或外借等情況導致的信息泄露或數據丟失風險,助您掌控信息資產,提升工作效率。此外,U型隱身俠還兼具普通U盤的存儲功能。1、 從使用方式來看,硬件版需將購入的隱身俠硬件PCKII插...
文件夾加密秘籍:使用加密軟件保護數據安全 - 天天要聞

文件夾加密秘籍:使用加密軟件保護數據安全

接下來,小編將1、 下載並安裝隱身俠應用查看2、 打開瀏覽器,搜索隱身俠,下載並安裝軟件,操作簡單,所示。3、 雙擊圖標開啟隱身俠4、 安裝軟件後,會提示重啟電腦,請重啟後再啟動隱身俠以使其生效,所示。5、 登錄賬號(若無賬號,註冊一個即可)。6、 請輸入賬號與密碼,參照下圖。7、 創建新的保險箱8、 登錄後,點擊...