
文 |有風
編輯 |有風
最近上海AI實驗室搞出個新東西,Spatial-SSRL自監督強化學習範式,說是能讓視覺大語言模型的空間理解能力提一大截,還不用人工標註。
這技術要是真靠譜,那自動駕駛、機器人這些依賴空間判斷的領域可算等來救星了。
現在的視覺大語言模型看着厲害,其實在空間理解上還挺"笨"。
就拿自動駕駛來說,它得判斷障礙物離多遠、轉彎時會不會碰到東西,這些都需要對空間有準確把握。

可現有模型要麼得靠人工一張張標數據,要麼就得外接各種傳感器,費錢又費力。
傳統訓練方法的坑,要麼花錢要麼費力
以前那些訓練方法我看着都頭大,監督微調就得找一幫人對着圖片標坐標、寫描述,一張圖少則幾塊多則幾十塊,想訓個像樣的模型沒幾百萬下不來。
強化學習倒是不用標那麼多數據,可又得接激光雷達、深度相機這些外設,普通實驗室根本玩不起。

更麻煩的是泛化性問題,你在實驗室環境訓得再好,換個光照條件、換種場景,模型立馬"失憶"。
就像教孩子認東西,只見過白貓就不認識黑貓了,這毛病不解決,AI永遠成不了氣候。
本來想是不是可以折中一下,結果發現根本不行。
標註數據少了模型學不明白,外設接少了精度又不夠。
好多團隊卡在這一步,明明算法思路不錯,就是沒錢把模型餵飽。

五個任務協同發力,自監督怎麼讓AI"看懂"空間
Spatial-SSRL這方法有意思就有意思在,它讓模型自己跟自己學。
研究團隊設計了五個自監督任務,就像給模型安排了一套空間思維訓練課。
第一個任務是打亂圖塊重排序,有點像我們玩的拼圖遊戲。

模型得把打亂的圖片碎片拼回去,這過程中自然就學會了物體怎麼擺放才合理。
第二個是翻轉圖塊識別,給張倒着的椅子圖片,模型得知道這東西其實是正放的。
裁剪圖塊復原就更考驗細節了,挖掉圖片一塊讓模型補全,逼着它記住不同物體的典型特徵。
區域深度排序讓模型判斷哪個東西離鏡頭近哪個遠,3D相對位置預測則訓練它理解上下左右前後這些空間關係。
這五個任務設計得挺巧妙,不用人告訴模型"這是桌子""那是椅子",它自己通過遊戲式訓練就能摸出空間規律。

研究團隊還搞了個81k樣本的數據集,全是RGB和RGB-D圖像,採集起來比標數據容易多了。
訓練的時候用的是GRPO算法,聽着挺玄乎,其實就是讓模型在嘗試中學習。
比如拼錯圖片就扣分,拼對了就給獎勵,慢慢就摸出門道了。
最關鍵的是成本,據說比傳統方法降了60%還多,訓練周期也短了三成。
Qwen模型實測,空間理解升了,通用能力沒丟
光說不練假把式,研究團隊拿Qwen系列模型做了測試。

Qwen2.5-VL的3B和7B版本,還有Qwen3-VL的4B版本,挨個試了個遍。
結果還真不賴,7個空間理解基準平均提升了3.89%到4.63%。
小規模模型反而提升更明顯,Qwen2.5-VL-3B漲了4.63%。
這說明啥?說明這方法對硬件要求不高,小實驗室也能用得起。
3D相對位置預測任務提升最猛,到了5.2%,看來模型是真學會判斷物體位置關係了。

讓人驚喜的是通用視覺能力沒受影響,OCR識別、圖表理解這些任務的性能跟原來差不多,有些還略有提升。
這就好比給學生補數學,結果語文成績也沒下降,算是意外之喜。
當然也不是沒缺點,極端光照或者東西擋着的時候,模型判斷深度就容易出錯。
視頻里的動態物體追蹤也還差點意思,看來還得繼續優化。
不過總的來說,這技術算是給視覺大模型的空間理解能力找到了條新路子。

不用花大價錢標數據,不用接一堆外設,就能讓AI更懂空間。
自動駕駛的環境感知、機器人的導航避障,這些領域說不定很快就能用上這項技術。
下一步研究團隊打算把數據集擴到百萬級,再試試結合激光雷達點雲這些數據。
要是能把多模態信息都用上,說不定AI的空間理解能力還能再上一個台階。
到時候智能家居、AR/VR這些場景,體驗肯定會更上一層樓。