哈工深團隊提出多模態智能體Optimus-1，在MineCraft長序列任務表現接近人類水平

2025年01月24日08:50:32 科學 8462

構造一個能像人類一樣推理、規劃、反思、並執行各種複雜任務的智能體一直是人工智慧領域的長久願景。

近年來多模態大模型的發展為智能體領域的研究帶來了新的契機。但是，現有的智能體在開放世界中執行複雜任務的能力與人類仍有較大差距。

哈爾濱工業大學（深圳）聶禮強團隊，受到人類大腦及認知科學相關理論研究的啟發，即「知識和經驗的儲存和利用在指導人類的行為和讓人類靈活適應環境以完成長序列任務發揮著至關重要的作用」，致力於研究如何構建能存儲知識和經驗的記憶模塊，並通過記憶模塊為智能體執行各種複雜任務賦能。

在近期一項研究中，課題組提出一種混合多模態記憶模塊，該模塊包含結構化知識（hdkg，hierarchical directed knowledge graph）和多模態經驗（amep，abstracted multimodal experience pool），能夠為智能體在規劃和反思過程中提供必要的知識和經驗。

（來源：arxiv）

在此基礎上構建的智能體 optimus-1, 其在開放世界環境 minecraft 中執行長序列任務的能力顯著高於現有的智能體，並且在其他環境有不錯的泛化性。

在開放世界環境中，智能體需要對複雜任務進行規劃，在執行任務過程中反思當前狀態是否正確，並對接下來的行為做出合理的決策。這與人類在真實世界中執行複雜任務的行為模式相似。因此，該成果在自動駕駛、智能製造、醫療診斷等領域有很廣泛的應用前景。

例如：

在自動駕駛領域，optimus-1 的混合多模態記憶模塊可以幫助車輛在複雜的交通環境中做出更智能的決策：其中，hdkg 可以提供道路和交通規則的知識；amep 則可以記錄和分析過去的駕駛經驗並根據當前狀態做出更智能的決策，從而提高自動駕駛的安全性和效率。

在智能製造領域，optimus-1 可以幫助工廠實現自動化生產。通過 hdkg，optimus-1 可以存儲生產流程和設備操作的知識；amep 則可以記錄和分析過往的生產數據並做出相應的決策，從而優化生產效率和質量。

在醫療診斷領域，optimus-1 可以輔助醫生進行診斷和治療。通過 hdkg，optimus-1 可以存儲醫學知識和診斷流程；amep 則可以記錄和分析患者的病歷以及歷史診斷數據，從而提供專業的診斷和治療建議。

論文第一作者李在京表示，在確定「開放世界多模態智能體」這個課題之前，他們進行了大量調研，並關注到一些 minecraft 環境中智能體的研究工作，他和所在團隊一致認為這是一個充滿挑戰且具有應用前景的方向。

通過李在京等人多次與老師彙報和討論，最終確定以 minecraft 環境作為切入點，目的是在開放世界中探索如何構造一個多模態智能體。

由於之前在開放世界智能體領域沒有相關研究經驗，因此他們先大量調研了現有的 minecraft 環境中的工作，深入閱讀相關論文並代碼復現現有的工作。

期間，他們發現現有的智能體與人類水平還有很大差距，仍有很大的進步空間。這鼓舞了他們繼續深入研究該領域，並提出創新性的方法。

事實上，李在京等人的動機很簡單：既然要讓智能體的能力接近人類水平，那麼他們需要思考人類在真實世界中是如何完成各種複雜且具有挑戰性的任務，並借鑒這些能力來構建強大的智能體。

受到人類認知科學領域的相關論文的啟發，他們發現人類在執行複雜任務過程中，可以利用掌握的知識來做出合理的規劃，並在執行任務過程中，「回憶」過往的經驗，並藉助經驗來更好的完成當前任務。

受此啟發，他們初步確立該工作的創新點：構造包含知識和經驗的記憶模塊，並通過該模塊為智能體賦能。

由於先前沒有太多可借鑒的方法，他們需要從零開始，一步步實現他們的想法，並構建完整的智能體框架。這個過程中遇到了很多問題，他們進行了很多試錯，所幸最後一一解決了各種問題。

比如，在確定初步方案之後，他們嘗試了多種方法，希望將智能體執行任務過程中的歷史信息存儲起來，並轉化為知識，使智能體在執行新任務過程中利用這些知識更好地進行任務規劃。他們每天討論和改進現有的方案，但是實驗一直沒有預期效果。

在某一天晚上，李在京和同學討論：「人類是如何在 minecraft 中構建知識並利用這些知識來完成任務的？」當看到「獲取木塊->合成木板->製作木鋤->挖掘石頭->製作石劍」這樣的鏈式結構時，他突然靈光一現：為何不用結構化的知識圖譜來存儲這些「知識」，讓智能體在環境中不斷探索，並把學到的「知識」存儲在知識圖譜里呢？

於是他和同學立馬討論可行性和實現方法，用了一天的時間把想法實現並做了改進優化。而實驗結果也如預期一般，顯著超過了現有方法，這讓他們很受鼓舞。

不過，他們並不滿足於實驗結果超過現有方法多少，而是想要更加全面的評估智能體在 minecraft 中的能力，以及與人類到底還有多少差距。

因此，他們參考了已有工作，並提出一個更加全面的評估基準，來測試現有的智能體在 minecraft 中執行各種長序列任務的能力。

課題組還邀請了一些志願者，要求他們以相同的設定下在 minecraft 中執行各種任務，通過統計任務成功率制定了人類水平基線。通過全面的對比實驗，他們所提出的 optimus-1 優於當前所有的智能體，並且在部分任務上接近人類水平的表現。

日前，相關論文以《optimus-1：混合多模態記憶賦能的智能體在長期任務中表現出色》（optimus-1 : hybrid multimodal memory empowered agents excel in long-horizon tasks）為題發在人工智慧國際會議—神經信息處理系統會議（neurips 2024，conference on neural information processing systems）[1]。

圖 | 相關論文（來源：arxiv）