中國團隊彎道超車！3條樣本教會機械人操作，微軟、MIT黯然失色

分類：科技

瀏覽數：1092

2025-10-17

在機械人研究領域，長期存在一個令人頭疼的難題：訓練數據太少。

與ChatGPT這類「坐在電腦後」的模型不同，機械人需要在真實環境中動手操作——推開一扇門、擰緊一個螺絲，甚至整理雜亂的桌面。

每一次嘗試都可能伴隨着磕碰、延遲或失敗，導致數據採集成本高、效率低。

更麻煩的是，許多任務依賴特定場景，換個光線、換個工具，機械人可能就直接「懵了」。

正因如此，目前公開的機械人操作數據集規模普遍有限，能達到百萬級別交互的屈指可數。

不過，這一困局最近被國內一家創新團隊打破了。

中科第五紀發佈了新一代具身操作基礎模型 FAM-1，它只需要 3-5 條示範數據，就能讓機械人學會一項新任務，成功率高達 97%。

舉個例子，過去要讓機械人學會「把釘子敲進木板」，可能需要演示幾百次；

而現在，只需在它面前敲 3 次，它就能模仿得像模像樣，甚至在光線變化、背景干擾下依然穩定發揮。

這一成果在CVPR 2025具身操作競賽中擊敗了來自微軟、MIT等國際團隊，拿下冠軍。

有意思的是，FAM-1的核心技術並非「暴力堆數據」，而是巧妙地從現有視覺語言大模型中「提煉」知識。

團隊提出了一種名為 BridgeVLA 的架構，把傳統上用於理解圖像和文本的模型，與機械人操控任務「嫁接」在一起。

簡單來說，它讓機械人不僅「看得懂」指令（比如「把紅色積木放進盒子」），還能在三維空間中精準規划動作軌跡——就像人腦能一邊聽指令，一邊協調手眼完成動作。

FAM-1如何實現少樣本蛻變？

為什麼傳統機械人模型需要海量數據？問題出在「維度壓縮」。

大多數模型會把三維空間信息（比如深度、距離）壓縮成一維數據，導致機械人對環境的理解變得模糊。

就像一個近視的人沒戴眼鏡，只能靠猜去拿水杯，容易打翻。FAM-1 的解決思路很直接：全程保持三維。它通過熱力圖建模空間關係，讓機械人對每個動作的位置、力度、方向都「心裏有數」。

另一個關鍵創新是知識遷移。團隊利用網絡上的海量圖像、視頻，預先訓練模型理解物理世界的常識——比如「玻璃杯易碎」「抽屜需要向外拉」。

這些知識看似與操作無關，實則讓機械人具備了「舉一反三」的能力。

例如，即使它從未見過某款門把手，也能根據「旋轉開啟」的常識成功開門。這種設計顯著降低了數據依賴，甚至能從人類操作視頻中無監督學習策略（相關論文已被 ICCV 2025 接收）。

實驗數據印證了模型的強大泛化能力：在 RLBench 測試中，FAM-1 在「插入木樁」「開關抽屜」等任務上的平均成功率比此前最優模型高出 30% 以上；

在真實機械臂測試中，面對動態光照、遮擋物干擾等複雜場景，仍保持 97% 的穩定表現。

有業內專家評價：「這標誌着具身智能從『實驗室玩具』邁向『工業級工具』的關鍵一步。」

當然，技術突破只是開始。

中科第五紀的下一步很明確：把模型落地到工業流水線、家庭服務等場景。

可以想像，未來工廠里的機械臂不再需要為每個新品重新編程，看幾遍演示就能上崗；家用機械人也不會因為沙發換位置而「死機」。

不得不說，當機械人學會「偷師學藝」，人類離真正的智能協作就更近了一步。

科技分類資訊推薦