
文 |有风
编辑 |有风
最近上海AI实验室搞出个新东西,Spatial-SSRL自监督强化学习范式,说是能让视觉大语言模型的空间理解能力提一大截,还不用人工标注。
这技术要是真靠谱,那自动驾驶、机器人这些依赖空间判断的领域可算等来救星了。
现在的视觉大语言模型看着厉害,其实在空间理解上还挺"笨"。
就拿自动驾驶来说,它得判断障碍物离多远、转弯时会不会碰到东西,这些都需要对空间有准确把握。

可现有模型要么得靠人工一张张标数据,要么就得外接各种传感器,费钱又费力。
传统训练方法的坑,要么花钱要么费力
以前那些训练方法我看着都头大,监督微调就得找一帮人对着图片标坐标、写描述,一张图少则几块多则几十块,想训个像样的模型没几百万下不来。
强化学习倒是不用标那么多数据,可又得接激光雷达、深度相机这些外设,普通实验室根本玩不起。

更麻烦的是泛化性问题,你在实验室环境训得再好,换个光照条件、换种场景,模型立马"失忆"。
就像教孩子认东西,只见过白猫就不认识黑猫了,这毛病不解决,AI永远成不了气候。
本来想是不是可以折中一下,结果发现根本不行。
标注数据少了模型学不明白,外设接少了精度又不够。
好多团队卡在这一步,明明算法思路不错,就是没钱把模型喂饱。

五个任务协同发力,自监督怎么让AI"看懂"空间
Spatial-SSRL这方法有意思就有意思在,它让模型自己跟自己学。
研究团队设计了五个自监督任务,就像给模型安排了一套空间思维训练课。
第一个任务是打乱图块重排序,有点像我们玩的拼图游戏。

模型得把打乱的图片碎片拼回去,这过程中自然就学会了物体怎么摆放才合理。
第二个是翻转图块识别,给张倒着的椅子图片,模型得知道这东西其实是正放的。
裁剪图块复原就更考验细节了,挖掉图片一块让模型补全,逼着它记住不同物体的典型特征。
区域深度排序让模型判断哪个东西离镜头近哪个远,3D相对位置预测则训练它理解上下左右前后这些空间关系。
这五个任务设计得挺巧妙,不用人告诉模型"这是桌子""那是椅子",它自己通过游戏式训练就能摸出空间规律。

研究团队还搞了个81k样本的数据集,全是RGB和RGB-D图像,采集起来比标数据容易多了。
训练的时候用的是GRPO算法,听着挺玄乎,其实就是让模型在尝试中学习。
比如拼错图片就扣分,拼对了就给奖励,慢慢就摸出门道了。
最关键的是成本,据说比传统方法降了60%还多,训练周期也短了三成。
Qwen模型实测,空间理解升了,通用能力没丢
光说不练假把式,研究团队拿Qwen系列模型做了测试。

Qwen2.5-VL的3B和7B版本,还有Qwen3-VL的4B版本,挨个试了个遍。
结果还真不赖,7个空间理解基准平均提升了3.89%到4.63%。
小规模模型反而提升更明显,Qwen2.5-VL-3B涨了4.63%。
这说明啥?说明这方法对硬件要求不高,小实验室也能用得起。
3D相对位置预测任务提升最猛,到了5.2%,看来模型是真学会判断物体位置关系了。

让人惊喜的是通用视觉能力没受影响,OCR识别、图表理解这些任务的性能跟原来差不多,有些还略有提升。
这就好比给学生补数学,结果语文成绩也没下降,算是意外之喜。
当然也不是没缺点,极端光照或者东西挡着的时候,模型判断深度就容易出错。
视频里的动态物体追踪也还差点意思,看来还得继续优化。
不过总的来说,这技术算是给视觉大模型的空间理解能力找到了条新路子。

不用花大价钱标数据,不用接一堆外设,就能让AI更懂空间。
自动驾驶的环境感知、机器人的导航避障,这些领域说不定很快就能用上这项技术。
下一步研究团队打算把数据集扩到百万级,再试试结合激光雷达点云这些数据。
要是能把多模态信息都用上,说不定AI的空间理解能力还能再上一个台阶。
到时候智能家居、AR/VR这些场景,体验肯定会更上一层楼。