鷺羽 發自 凹非寺
量子位 | 公眾號 qbitai
好傢夥,機器人進廠打工原視頻流出,整整60分鐘,完全未剪輯。
前幾天figure 02曬1分鐘物流分揀視頻,網友們完全沒看夠啊。
於是figure創始人立馬60分鐘進廠打工vlog(未刪減版)奉上。
可靈活處理更多類型包裹,更接近人類水平的硬體運動,仔細看機器人在工作時,還會實時查看新數據來觀察學習。
可以很輕鬆地從一堆非結構化的雜亂對象中抽出包裹,並在推走一個包裹的同時,伸手去取另外一個包裹。
短時間內整體性能飛速提升,到底發生了什麼?
剛剛官方同步釋出的完整技術解讀文檔來答疑解惑了。
受益於高質量演示數據集的擴展,以及對figure自研的helix神經網路的視覺電機策略(visuo-motor policy)進行架構改進,機器人在高速工作負載下的穩定性得以長足發展。
另外通過啟動狀態感知和力感應,在不犧牲效率的情況下還全面增強了機器人的穩健性和適應性。
更多詳細技術細節如下。
數據擴展
將前後兩次視頻對比,物流任務明顯擴展至更多形態的包裹,除了標準的硬紙盒,現在還可以處理聚乙烯袋、信封和其它可摺疊、皺縮或彎曲的物品。
這讓機器人完成包裹反轉,並抓取和定位標籤的難度陡然提升。
針對不同形態包裹,helix採取即時調整抓取策略解決,例如碰到紙盒就雙手上下一翻,碰到信封則一隻手扶住,另一隻手輕輕捏住邊緣翻轉。
值得注意的是,機器人還會輕輕拍打塑料包裝以撫平起皺的貨物條形碼,這是機器人自己從演示中學習到的自適應行為,側面凸顯出端到端學習的優勢。
儘管包裹的形狀質地都得以擴展,還有新動作的產生,但絲毫沒有影響工作效率。
實驗表明,增加訓練數據可以顯著提高吞吐量和準確性,在10到60小時中,包裹的平均處理速度約為4.05s,吞吐量提高了58%,條形碼成功率也從88.2%升至94.4%。
總之,這些改進都表明了這是一個更加靈巧和可靠的系統,可以在廣泛的實際包裹中,更接近人類水平的速度和準確性。
架構改進
研究團隊對helix的視覺電機策略的架構進行了針對性改進,引入了新的內存和感測模塊,能更好地幫助機器人感知環境變化。
具體來說,可以分為視覺記憶、狀態歷史、力反饋三個部分:
視覺記憶
helix配備了一個新的內存模塊,可以從系列視頻幀中組合特徵,再形成短期視覺記憶。
例如,在初始攝像機圖像中沒有完全顯示標籤,helix就可以調用前一時刻的圖像幀,並控制手部將包裹旋轉至標籤可見的記憶角度。
期間,機器人還可以記住它已經檢查過的包裝側面,避免重複檢查,提高成功率。
從本質上講,視覺記憶為helix提供了時間背景感,可以更有效地通過多次小型旋轉或視點調整來查找條形碼位置。
狀態歷史
該策略在固定持續時間內的動作分塊(action chunk)中運行,也就是將連續動作序列分割為固定長度的小段進行規劃和執行。
首先會觀察當前狀態(手、軀幹和頭部)並輸出一小段運動軌跡,反覆重新觀察多次後,再將全部狀態合併輸入,以確保模塊間的連續性。
由於狀態歷史記錄保留了上下文,即使重新規劃或面對干擾,機器人仍能保持穩健,例如當包裹抓取失敗時,helix會以最小的延遲迅速糾正運動,顯著縮短了處理時間。
力反饋
為了賦予helix觸感,機器人施加在環境和目標上的力,被反饋送至神經網路狀態輸入中,以幫助機器人動態調整運動過程,例如當它檢測到與傳送帶接觸時,會暫停向下繼續運動。
通過一個閉合迴路,helix可以實現更精準的控制,提高運動的成功率和一致性,也更能適應不同形態重量的物流包裹。
在啟用新策略後,條形碼定向朝下的成功率提高到94%,平均處理時間降至4.05s,同時精度保持在92%以上。
另外,figure 02除了可以完成自主分揀,其端對端模型還可以輕鬆建立人機交互。
無需單獨的程序或模式開關,僅通過神經網路的視覺調節,當站在一旁的人類伸出手,機器人就會自動認定這是交出物品的提示,並將包裹遞交給人類而不是傳送帶。
這反映了helix神經網路的靈活性,只需少量演示,即可學習新的上下文相關行為。
one more thing
視頻一出,figure創始人的評論區就炸開了鍋。
有網友樂見其成,讚歎figure不搞demo,直接放一小時視頻的自信。
有網友看到機器人參與物流工作帶來的效率和成本考量。
自然也少不了老生常談的話題:人類怎樣才能避免被機器人取代?
也有技術宅思考為什麼物流機器人一定要仿人類外型,三頭六臂似乎效率更高。
當然也少不了拿放大鏡看視頻的樂子人,致力於找機器人的茬。
也歡迎大家一起來找茬,或者在本評論區留下你的真知灼見。
參考鏈接:
[1]https://www.figure.ai/news/scaling-helix-logistics
[2]https://www.figure.ai/news/helix
[3]https://www.figure.ai/news/helix-logistics
[4]https://x.com/adcock_brett/status/1931391783306678515