視覺AI新突破！無需人工標註，空間理解能力提升4.63%

2025年12月02日19:33:05 科技 1609

文 |有風

編輯 |有風

最近上海AI實驗室搞出個新東西，Spatial-SSRL自監督強化學習範式，說是能讓視覺大語言模型的空間理解能力提一大截，還不用人工標註。

這技術要是真靠譜，那自動駕駛、機器人這些依賴空間判斷的領域可算等來救星了。

現在的視覺大語言模型看着厲害，其實在空間理解上還挺"笨"。

就拿自動駕駛來說，它得判斷障礙物離多遠、轉彎時會不會碰到東西，這些都需要對空間有準確把握。

可現有模型要麼得靠人工一張張標數據，要麼就得外接各種傳感器，費錢又費力。

傳統訓練方法的坑，要麼花錢要麼費力

以前那些訓練方法我看着都頭大，監督微調就得找一幫人對着圖片標坐標、寫描述，一張圖少則幾塊多則幾十塊，想訓個像樣的模型沒幾百萬下不來。

強化學習倒是不用標那麼多數據，可又得接激光雷達、深度相機這些外設，普通實驗室根本玩不起。

更麻煩的是泛化性問題，你在實驗室環境訓得再好，換個光照條件、換種場景，模型立馬"失憶"。

就像教孩子認東西，只見過白貓就不認識黑貓了，這毛病不解決，AI永遠成不了氣候。

本來想是不是可以折中一下，結果發現根本不行。

標註數據少了模型學不明白，外設接少了精度又不夠。

好多團隊卡在這一步，明明算法思路不錯，就是沒錢把模型餵飽。

五個任務協同發力，自監督怎麼讓AI"看懂"空間

Spatial-SSRL這方法有意思就有意思在，它讓模型自己跟自己學。

研究團隊設計了五個自監督任務，就像給模型安排了一套空間思維訓練課。

第一個任務是打亂圖塊重排序，有點像我們玩的拼圖遊戲。

模型得把打亂的圖片碎片拼回去，這過程中自然就學會了物體怎麼擺放才合理。

第二個是翻轉圖塊識別，給張倒着的椅子圖片，模型得知道這東西其實是正放的。

裁剪圖塊復原就更考驗細節了，挖掉圖片一塊讓模型補全，逼着它記住不同物體的典型特徵。

區域深度排序讓模型判斷哪個東西離鏡頭近哪個遠，3D相對位置預測則訓練它理解上下左右前後這些空間關係。

這五個任務設計得挺巧妙，不用人告訴模型"這是桌子""那是椅子"，它自己通過遊戲式訓練就能摸出空間規律。

研究團隊還搞了個81k樣本的數據集，全是RGB和RGB-D圖像，採集起來比標數據容易多了。

訓練的時候用的是GRPO算法，聽着挺玄乎，其實就是讓模型在嘗試中學習。

比如拼錯圖片就扣分，拼對了就給獎勵，慢慢就摸出門道了。

最關鍵的是成本，據說比傳統方法降了60%還多，訓練周期也短了三成。

Qwen模型實測，空間理解升了，通用能力沒丟

光說不練假把式，研究團隊拿Qwen系列模型做了測試。

Qwen2.5-VL的3B和7B版本，還有Qwen3-VL的4B版本，挨個試了個遍。

結果還真不賴，7個空間理解基準平均提升了3.89%到4.63%。

小規模模型反而提升更明顯，Qwen2.5-VL-3B漲了4.63%。

這說明啥？說明這方法對硬件要求不高，小實驗室也能用得起。

3D相對位置預測任務提升最猛，到了5.2%，看來模型是真學會判斷物體位置關係了。

讓人驚喜的是通用視覺能力沒受影響，OCR識別、圖表理解這些任務的性能跟原來差不多，有些還略有提升。

這就好比給學生補數學，結果語文成績也沒下降，算是意外之喜。

當然也不是沒缺點，極端光照或者東西擋着的時候，模型判斷深度就容易出錯。

視頻里的動態物體追蹤也還差點意思，看來還得繼續優化。

不過總的來說，這技術算是給視覺大模型的空間理解能力找到了條新路子。

不用花大價錢標數據，不用接一堆外設，就能讓AI更懂空間。

自動駕駛的環境感知、機器人的導航避障，這些領域說不定很快就能用上這項技術。

下一步研究團隊打算把數據集擴到百萬級，再試試結合激光雷達點雲這些數據。

要是能把多模態信息都用上，說不定AI的空間理解能力還能再上一個台階。

到時候智能家居、AR/VR這些場景，體驗肯定會更上一層樓。

科技

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商

圖源：藍鯨科技記者拍攝藍鯨新聞5月3日訊(記者翟智超)按照往年慣例，五一勞動節是手機廠商集中促銷、衝量的關鍵節點，但今年這場例行的“節前大促”卻未能點燃消費熱情。 5月2日下....

05月03日 7401

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課

4月29日，在武漢市武鋼三中的報告廳里，一場關於人工智能的科普報告正在進行。台上，中國工程院院士、中南大學教授桂衛華以“大模型與工業應用”為題，為高一學生揭開AI大模型的神秘面紗。桂衛華，中國工程院院士，中南大學教授、博士生導師。

05月03日 1895

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV，第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊，以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級，兼顧商務體面與家庭舒適，為西北高端用戶帶來一站式全能出行解決方案。

05月03日 2042

採購禁入！科華數據材料造假被拒門外

本報（chinatimes.net.cn）記者胡雅文北京報道這家趕上AI算力風口的公司，因投標材料造假，被相關採購方列入禁入名單兩年，其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告，明確駁回科華數據股份有限公司（下稱“科華數據”，002335.SZ）此前提交的複議申請。早在一年前，科華數據已被認定在“信息通信樞紐...

05月03日 9437