在机器人研究领域,长期存在一个令人头疼的难题:训练数据太少。
与ChatGPT这类“坐在电脑后”的模型不同,机器人需要在真实环境中动手操作——推开一扇门、拧紧一个螺丝,甚至整理杂乱的桌面。
每一次尝试都可能伴随着磕碰、延迟或失败,导致数据采集成本高、效率低。
更麻烦的是,许多任务依赖特定场景,换个光线、换个工具,机器人可能就直接“懵了”。
正因如此,目前公开的机器人操作数据集规模普遍有限,能达到百万级别交互的屈指可数。
不过,这一困局最近被国内一家创新团队打破了。
中科第五纪发布了新一代具身操作基础模型 FAM-1,它只需要 3-5 条示范数据,就能让机器人学会一项新任务,成功率高达 97%。
举个例子,过去要让机器人学会“把钉子敲进木板”,可能需要演示几百次;
而现在,只需在它面前敲 3 次,它就能模仿得像模像样,甚至在光线变化、背景干扰下依然稳定发挥。
这一成果在CVPR 2025具身操作竞赛中击败了来自微软、MIT等国际团队,拿下冠军。
有意思的是,FAM-1的核心技术并非“暴力堆数据”,而是巧妙地从现有视觉语言大模型中“提炼”知识。
团队提出了一种名为 BridgeVLA 的架构,把传统上用于理解图像和文本的模型,与机器人操控任务“嫁接”在一起。
简单来说,它让机器人不仅“看得懂”指令(比如“把红色积木放进盒子”),还能在三维空间中精准规划动作轨迹——就像人脑能一边听指令,一边协调手眼完成动作。
FAM-1如何实现少样本蜕变?
为什么传统机器人模型需要海量数据?问题出在“维度压缩”。
大多数模型会把三维空间信息(比如深度、距离)压缩成一维数据,导致机器人对环境的理解变得模糊。
就像一个近视的人没戴眼镜,只能靠猜去拿水杯,容易打翻。FAM-1 的解决思路很直接:全程保持三维。它通过热力图建模空间关系,让机器人对每个动作的位置、力度、方向都“心里有数”。
另一个关键创新是 知识迁移。团队利用网络上的海量图像、视频,预先训练模型理解物理世界的常识——比如“玻璃杯易碎”“抽屉需要向外拉”。
这些知识看似与操作无关,实则让机器人具备了“举一反三”的能力。
例如,即使它从未见过某款门把手,也能根据“旋转开启”的常识成功开门。这种设计显著降低了数据依赖,甚至能从人类操作视频中无监督学习策略(相关论文已被 ICCV 2025 接收)。
实验数据印证了模型的强大泛化能力:在 RLBench 测试中,FAM-1 在“插入木桩”“开关抽屉”等任务上的平均成功率比此前最优模型高出 30% 以上;
在真实机械臂测试中,面对动态光照、遮挡物干扰等复杂场景,仍保持 97% 的稳定表现。
有业内专家评价:“这标志着具身智能从‘实验室玩具’迈向‘工业级工具’的关键一步。”
当然,技术突破只是开始。
中科第五纪的下一步很明确:把模型落地到工业流水线、家庭服务等场景。
可以想象,未来工厂里的机械臂不再需要为每个新品重新编程,看几遍演示就能上岗;家用机器人也不会因为沙发换位置而“死机”。
不得不说,当机器人学会“偷师学艺”,人类离真正的智能协作就更近了一步。