中国团队弯道超车！3条样本教会机器人操作，微软、MIT黯然失色

分类：科技

浏览数：1092

2025-10-17

在机器人研究领域，长期存在一个令人头疼的难题：训练数据太少。

与ChatGPT这类“坐在电脑后”的模型不同，机器人需要在真实环境中动手操作——推开一扇门、拧紧一个螺丝，甚至整理杂乱的桌面。

每一次尝试都可能伴随着磕碰、延迟或失败，导致数据采集成本高、效率低。

更麻烦的是，许多任务依赖特定场景，换个光线、换个工具，机器人可能就直接“懵了”。

正因如此，目前公开的机器人操作数据集规模普遍有限，能达到百万级别交互的屈指可数。

不过，这一困局最近被国内一家创新团队打破了。

中科第五纪发布了新一代具身操作基础模型 FAM-1，它只需要 3-5 条示范数据，就能让机器人学会一项新任务，成功率高达 97%。

举个例子，过去要让机器人学会“把钉子敲进木板”，可能需要演示几百次；

而现在，只需在它面前敲 3 次，它就能模仿得像模像样，甚至在光线变化、背景干扰下依然稳定发挥。

这一成果在CVPR 2025具身操作竞赛中击败了来自微软、MIT等国际团队，拿下冠军。

有意思的是，FAM-1的核心技术并非“暴力堆数据”，而是巧妙地从现有视觉语言大模型中“提炼”知识。

团队提出了一种名为 BridgeVLA 的架构，把传统上用于理解图像和文本的模型，与机器人操控任务“嫁接”在一起。

简单来说，它让机器人不仅“看得懂”指令（比如“把红色积木放进盒子”），还能在三维空间中精准规划动作轨迹——就像人脑能一边听指令，一边协调手眼完成动作。

FAM-1如何实现少样本蜕变？

为什么传统机器人模型需要海量数据？问题出在“维度压缩”。

大多数模型会把三维空间信息（比如深度、距离）压缩成一维数据，导致机器人对环境的理解变得模糊。

就像一个近视的人没戴眼镜，只能靠猜去拿水杯，容易打翻。FAM-1 的解决思路很直接：全程保持三维。它通过热力图建模空间关系，让机器人对每个动作的位置、力度、方向都“心里有数”。

另一个关键创新是知识迁移。团队利用网络上的海量图像、视频，预先训练模型理解物理世界的常识——比如“玻璃杯易碎”“抽屉需要向外拉”。

这些知识看似与操作无关，实则让机器人具备了“举一反三”的能力。

例如，即使它从未见过某款门把手，也能根据“旋转开启”的常识成功开门。这种设计显著降低了数据依赖，甚至能从人类操作视频中无监督学习策略（相关论文已被 ICCV 2025 接收）。

实验数据印证了模型的强大泛化能力：在 RLBench 测试中，FAM-1 在“插入木桩”“开关抽屉”等任务上的平均成功率比此前最优模型高出 30% 以上；

在真实机械臂测试中，面对动态光照、遮挡物干扰等复杂场景，仍保持 97% 的稳定表现。

有业内专家评价：“这标志着具身智能从‘实验室玩具’迈向‘工业级工具’的关键一步。”

当然，技术突破只是开始。

中科第五纪的下一步很明确：把模型落地到工业流水线、家庭服务等场景。

可以想象，未来工厂里的机械臂不再需要为每个新品重新编程，看几遍演示就能上岗；家用机器人也不会因为沙发换位置而“死机”。

不得不说，当机器人学会“偷师学艺”，人类离真正的智能协作就更近了一步。

科技分类资讯推荐