在機器人研究領域,長期存在一個令人頭疼的難題:訓練數據太少。
與ChatGPT這類“坐在電腦後”的模型不同,機器人需要在真實環境中動手操作——推開一扇門、擰緊一個螺絲,甚至整理雜亂的桌面。
每一次嘗試都可能伴隨着磕碰、延遲或失敗,導致數據採集成本高、效率低。
更麻煩的是,許多任務依賴特定場景,換個光線、換個工具,機器人可能就直接“懵了”。

正因如此,目前公開的機器人操作數據集規模普遍有限,能達到百萬級別交互的屈指可數。
不過,這一困局最近被國內一家創新團隊打破了。
中科第五紀發布了新一代具身操作基礎模型 FAM-1,它只需要 3-5 條示範數據,就能讓機器人學會一項新任務,成功率高達 97%。

舉個例子,過去要讓機器人學會“把釘子敲進木板”,可能需要演示幾百次;
而現在,只需在它面前敲 3 次,它就能模仿得像模像樣,甚至在光線變化、背景干擾下依然穩定發揮。
這一成果在CVPR 2025具身操作競賽中擊敗了來自微軟、MIT等國際團隊,拿下冠軍。

有意思的是,FAM-1的核心技術並非“暴力堆數據”,而是巧妙地從現有視覺語言大模型中“提煉”知識。
團隊提出了一種名為 BridgeVLA 的架構,把傳統上用於理解圖像和文本的模型,與機器人操控任務“嫁接”在一起。
簡單來說,它讓機器人不僅“看得懂”指令(比如“把紅色積木放進盒子”),還能在三維空間中精準規划動作軌跡——就像人腦能一邊聽指令,一邊協調手眼完成動作。

FAM-1如何實現少樣本蛻變?
為什麼傳統機器人模型需要海量數據?問題出在“維度壓縮”。
大多數模型會把三維空間信息(比如深度、距離)壓縮成一維數據,導致機器人對環境的理解變得模糊。
就像一個近視的人沒戴眼鏡,只能靠猜去拿水杯,容易打翻。FAM-1 的解決思路很直接:全程保持三維。它通過熱力圖建模空間關係,讓機器人對每個動作的位置、力度、方向都“心裡有數”。

另一個關鍵創新是 知識遷移。團隊利用網絡上的海量圖像、視頻,預先訓練模型理解物理世界的常識——比如“玻璃杯易碎”“抽屜需要向外拉”。
這些知識看似與操作無關,實則讓機器人具備了“舉一反三”的能力。
例如,即使它從未見過某款門把手,也能根據“旋轉開啟”的常識成功開門。這種設計顯著降低了數據依賴,甚至能從人類操作視頻中無監督學習策略(相關論文已被 ICCV 2025 接收)。

實驗數據印證了模型的強大泛化能力:在 RLBench 測試中,FAM-1 在“插入木樁”“開關抽屜”等任務上的平均成功率比此前最優模型高出 30% 以上;
在真實機械臂測試中,面對動態光照、遮擋物干擾等複雜場景,仍保持 97% 的穩定表現。
有業內專家評價:“這標誌着具身智能從‘實驗室玩具’邁向‘工業級工具’的關鍵一步。”

當然,技術突破只是開始。
中科第五紀的下一步很明確:把模型落地到工業流水線、家庭服務等場景。
可以想象,未來工廠里的機械臂不再需要為每個新品重新編程,看幾遍演示就能上崗;家用機器人也不會因為沙發換位置而“死機”。
不得不說,當機器人學會“偷師學藝”,人類離真正的智能協作就更近了一步。