视觉AI新突破！无需人工标注，空间理解能力提升4.63%

2025年12月02日19:33:05 科技 1609

文 |有风

编辑 |有风

最近上海AI实验室搞出个新东西，Spatial-SSRL自监督强化学习范式，说是能让视觉大语言模型的空间理解能力提一大截，还不用人工标注。

这技术要是真靠谱，那自动驾驶、机器人这些依赖空间判断的领域可算等来救星了。

现在的视觉大语言模型看着厉害，其实在空间理解上还挺"笨"。

就拿自动驾驶来说，它得判断障碍物离多远、转弯时会不会碰到东西，这些都需要对空间有准确把握。

可现有模型要么得靠人工一张张标数据，要么就得外接各种传感器，费钱又费力。

传统训练方法的坑，要么花钱要么费力

以前那些训练方法我看着都头大，监督微调就得找一帮人对着图片标坐标、写描述，一张图少则几块多则几十块，想训个像样的模型没几百万下不来。

强化学习倒是不用标那么多数据，可又得接激光雷达、深度相机这些外设，普通实验室根本玩不起。

更麻烦的是泛化性问题，你在实验室环境训得再好，换个光照条件、换种场景，模型立马"失忆"。

就像教孩子认东西，只见过白猫就不认识黑猫了，这毛病不解决，AI永远成不了气候。

本来想是不是可以折中一下，结果发现根本不行。

标注数据少了模型学不明白，外设接少了精度又不够。

好多团队卡在这一步，明明算法思路不错，就是没钱把模型喂饱。

五个任务协同发力，自监督怎么让AI"看懂"空间

Spatial-SSRL这方法有意思就有意思在，它让模型自己跟自己学。

研究团队设计了五个自监督任务，就像给模型安排了一套空间思维训练课。

第一个任务是打乱图块重排序，有点像我们玩的拼图游戏。

模型得把打乱的图片碎片拼回去，这过程中自然就学会了物体怎么摆放才合理。

第二个是翻转图块识别，给张倒着的椅子图片，模型得知道这东西其实是正放的。

裁剪图块复原就更考验细节了，挖掉图片一块让模型补全，逼着它记住不同物体的典型特征。

区域深度排序让模型判断哪个东西离镜头近哪个远，3D相对位置预测则训练它理解上下左右前后这些空间关系。

这五个任务设计得挺巧妙，不用人告诉模型"这是桌子""那是椅子"，它自己通过游戏式训练就能摸出空间规律。

研究团队还搞了个81k样本的数据集，全是RGB和RGB-D图像，采集起来比标数据容易多了。

训练的时候用的是GRPO算法，听着挺玄乎，其实就是让模型在尝试中学习。

比如拼错图片就扣分，拼对了就给奖励，慢慢就摸出门道了。

最关键的是成本，据说比传统方法降了60%还多，训练周期也短了三成。

Qwen模型实测，空间理解升了，通用能力没丢

光说不练假把式，研究团队拿Qwen系列模型做了测试。

Qwen2.5-VL的3B和7B版本，还有Qwen3-VL的4B版本，挨个试了个遍。

结果还真不赖，7个空间理解基准平均提升了3.89%到4.63%。

小规模模型反而提升更明显，Qwen2.5-VL-3B涨了4.63%。

这说明啥？说明这方法对硬件要求不高，小实验室也能用得起。

3D相对位置预测任务提升最猛，到了5.2%，看来模型是真学会判断物体位置关系了。

让人惊喜的是通用视觉能力没受影响，OCR识别、图表理解这些任务的性能跟原来差不多，有些还略有提升。

这就好比给学生补数学，结果语文成绩也没下降，算是意外之喜。

当然也不是没缺点，极端光照或者东西挡着的时候，模型判断深度就容易出错。

视频里的动态物体追踪也还差点意思，看来还得继续优化。

不过总的来说，这技术算是给视觉大模型的空间理解能力找到了条新路子。

不用花大价钱标数据，不用接一堆外设，就能让AI更懂空间。

自动驾驶的环境感知、机器人的导航避障，这些领域说不定很快就能用上这项技术。

下一步研究团队打算把数据集扩到百万级，再试试结合激光雷达点云这些数据。

要是能把多模态信息都用上，说不定AI的空间理解能力还能再上一个台阶。

到时候智能家居、AR/VR这些场景，体验肯定会更上一层楼。

科技

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商

图源：蓝鲸科技记者拍摄蓝鲸新闻5月3日讯(记者翟智超)按照往年惯例，五一劳动节是手机厂商集中促销、冲量的关键节点，但今年这场例行的“节前大促”却未能点燃消费热情。 5月2日下....

05月03日 7401

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课

4月29日，在武汉市武钢三中的报告厅里，一场关于人工智能的科普报告正在进行。台上，中国工程院院士、中南大学教授桂卫华以“大模型与工业应用”为题，为高一学生揭开AI大模型的神秘面纱。桂卫华，中国工程院院士，中南大学教授、博士生导师。

05月03日 1895

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV，第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴，以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级，兼顾商务体面与家庭舒适，为西北高端用户带来一站式全能出行解决方案。

05月03日 2042

采购禁入！科华数据材料造假被拒门外

本报（chinatimes.net.cn）记者胡雅文北京报道这家赶上AI算力风口的公司，因投标材料造假，被相关采购方列入禁入名单两年，其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告，明确驳回科华数据股份有限公司（下称“科华数据”，002335.SZ）此前提交的复议申请。早在一年前，科华数据已被认定在“信息通信枢纽...

05月03日 9437