中國團隊彎道超車!3條樣本教會機械人操作,微軟、MIT黯然失色

在機械人研究領域,長期存在一個令人頭疼的難題:訓練數據太少。

與ChatGPT這類「坐在電腦後」的模型不同,機械人需要在真實環境中動手操作——推開一扇門、擰緊一個螺絲,甚至整理雜亂的桌面。

每一次嘗試都可能伴隨着磕碰、延遲或失敗,導致數據採集成本高、效率低。

更麻煩的是,許多任務依賴特定場景,換個光線、換個工具,機械人可能就直接「懵了」。

正因如此,目前公開的機械人操作數據集規模普遍有限,能達到百萬級別交互的屈指可數。

不過,這一困局最近被國內一家創新團隊打破了。

中科第五紀發佈了新一代具身操作基礎模型 FAM-1,它只需要 3-5 條示範數據,就能讓機械人學會一項新任務,成功率高達 97%。

舉個例子,過去要讓機械人學會「把釘子敲進木板」,可能需要演示幾百次;

而現在,只需在它面前敲 3 次,它就能模仿得像模像樣,甚至在光線變化、背景干擾下依然穩定發揮。

這一成果在CVPR 2025具身操作競賽中擊敗了來自微軟、MIT等國際團隊,拿下冠軍。

有意思的是,FAM-1的核心技術並非「暴力堆數據」,而是巧妙地從現有視覺語言大模型中「提煉」知識。

團隊提出了一種名為 BridgeVLA 的架構,把傳統上用於理解圖像和文本的模型,與機械人操控任務「嫁接」在一起。

簡單來說,它讓機械人不僅「看得懂」指令(比如「把紅色積木放進盒子」),還能在三維空間中精準規划動作軌跡——就像人腦能一邊聽指令,一邊協調手眼完成動作。

FAM-1如何實現少樣本蛻變?

為什麼傳統機械人模型需要海量數據?問題出在「維度壓縮」。

大多數模型會把三維空間信息(比如深度、距離)壓縮成一維數據,導致機械人對環境的理解變得模糊。

就像一個近視的人沒戴眼鏡,只能靠猜去拿水杯,容易打翻。FAM-1 的解決思路很直接:全程保持三維。它通過熱力圖建模空間關係,讓機械人對每個動作的位置、力度、方向都「心裏有數」。

另一個關鍵創新是 知識遷移。團隊利用網絡上的海量圖像、視頻,預先訓練模型理解物理世界的常識——比如「玻璃杯易碎」「抽屜需要向外拉」。

這些知識看似與操作無關,實則讓機械人具備了「舉一反三」的能力。

例如,即使它從未見過某款門把手,也能根據「旋轉開啟」的常識成功開門。這種設計顯著降低了數據依賴,甚至能從人類操作視頻中無監督學習策略(相關論文已被 ICCV 2025 接收)。

實驗數據印證了模型的強大泛化能力:在 RLBench 測試中,FAM-1 在「插入木樁」「開關抽屜」等任務上的平均成功率比此前最優模型高出 30% 以上;

在真實機械臂測試中,面對動態光照、遮擋物干擾等複雜場景,仍保持 97% 的穩定表現。

有業內專家評價:「這標誌着具身智能從『實驗室玩具』邁向『工業級工具』的關鍵一步。」

當然,技術突破只是開始。

中科第五紀的下一步很明確:把模型落地到工業流水線、家庭服務等場景。

可以想像,未來工廠里的機械臂不再需要為每個新品重新編程,看幾遍演示就能上崗;家用機械人也不會因為沙發換位置而「死機」。

不得不說,當機械人學會「偷師學藝」,人類離真正的智能協作就更近了一步。