哈工深團隊提出多模態智能體Optimus-1,在MineCraft長序列任務表現接近人類水平

2025年01月24日08:50:32 科學 8462

構造一個能像人類一樣推理、規劃、反思、並執行各種複雜任務的智能體一直是人工智能領域的長久願景。

近年來多模態大模型的發展為智能體領域的研究帶來了新的契機。但是,現有的智能體在開放世界中執行複雜任務的能力與人類仍有較大差距。

哈爾濱工業大學(深圳)聶禮強團隊,受到人類大腦及認知科學相關理論研究的啟發,即“知識和經驗的儲存和利用在指導人類的行為和讓人類靈活適應環境以完成長序列任務發揮着至關重要的作用”,致力於研究如何構建能存儲知識和經驗的記憶模塊,並通過記憶模塊為智能體執行各種複雜任務賦能。

在近期一項研究中,課題組提出一種混合多模態記憶模塊,該模塊包含結構化知識(hdkg,hierarchical directed knowledge graph)和多模態經驗(amep,abstracted multimodal experience pool),能夠為智能體在規劃和反思過程中提供必要的知識和經驗。

哈工深團隊提出多模態智能體Optimus-1,在MineCraft長序列任務表現接近人類水平 - 天天要聞(來源:arxiv)

在此基礎上構建的智能體 optimus-1, 其在開放世界環境 minecraft 中執行長序列任務的能力顯著高於現有的智能體,並且在其他環境有不錯的泛化性。

在開放世界環境中,智能體需要對複雜任務進行規劃,在執行任務過程中反思當前狀態是否正確,並對接下來的行為做出合理的決策。這與人類在真實世界中執行複雜任務的行為模式相似。因此,該成果在自動駕駛、智能製造、醫療診斷等領域有很廣泛的應用前景。

例如:

在自動駕駛領域,optimus-1 的混合多模態記憶模塊可以幫助車輛在複雜的交通環境中做出更智能的決策:其中,hdkg 可以提供道路和交通規則的知識;amep 則可以記錄和分析過去的駕駛經驗並根據當前狀態做出更智能的決策,從而提高自動駕駛的安全性和效率。

在智能製造領域,optimus-1 可以幫助工廠實現自動化生產。通過 hdkg,optimus-1 可以存儲生產流程和設備操作的知識;amep 則可以記錄和分析過往的生產數據並做出相應的決策,從而優化生產效率和質量。

在醫療診斷領域,optimus-1 可以輔助醫生進行診斷和治療。通過 hdkg,optimus-1 可以存儲醫學知識和診斷流程;amep 則可以記錄和分析患者的病歷以及歷史診斷數據,從而提供專業的診斷和治療建議。

論文第一作者李在京表示,在確定“開放世界多模態智能體”這個課題之前,他們進行了大量調研,並關注到一些 minecraft 環境中智能體的研究工作,他和所在團隊一致認為這是一個充滿挑戰且具有應用前景的方向。

通過李在京等人多次與老師彙報和討論,最終確定以 minecraft 環境作為切入點,目的是在開放世界中探索如何構造一個多模態智能體。

由於之前在開放世界智能體領域沒有相關研究經驗,因此他們先大量調研了現有的 minecraft 環境中的工作,深入閱讀相關論文並代碼復現現有的工作。

期間,他們發現現有的智能體與人類水平還有很大差距,仍有很大的進步空間。這鼓舞了他們繼續深入研究該領域,並提出創新性的方法。

事實上,李在京等人的動機很簡單:既然要讓智能體的能力接近人類水平,那麼他們需要思考人類在真實世界中是如何完成各種複雜且具有挑戰性的任務,並借鑒這些能力來構建強大的智能體。

受到人類認知科學領域的相關論文的啟發,他們發現人類在執行複雜任務過程中,可以利用掌握的知識來做出合理的規劃,並在執行任務過程中,“回憶”過往的經驗,並藉助經驗來更好的完成當前任務。

受此啟發,他們初步確立該工作的創新點:構造包含知識和經驗的記憶模塊,並通過該模塊為智能體賦能。

由於先前沒有太多可借鑒的方法,他們需要從零開始,一步步實現他們的想法,並構建完整的智能體框架。這個過程中遇到了很多問題,他們進行了很多試錯,所幸最後一一解決了各種問題。

比如,在確定初步方案之後,他們嘗試了多種方法,希望將智能體執行任務過程中的歷史信息存儲起來,並轉化為知識,使智能體在執行新任務過程中利用這些知識更好地進行任務規劃。他們每天討論和改進現有的方案,但是實驗一直沒有預期效果。

在某一天晚上,李在京和同學討論:“人類是如何在 minecraft 中構建知識並利用這些知識來完成任務的?”當看到“獲取木塊->合成木板->製作木鋤->挖掘石頭->製作石劍”這樣的鏈式結構時,他突然靈光一現:為何不用結構化的知識圖譜來存儲這些“知識”,讓智能體在環境中不斷探索,並把學到的“知識”存儲在知識圖譜里呢?

於是他和同學立馬討論可行性和實現方法,用了一天的時間把想法實現並做了改進優化。而實驗結果也如預期一般,顯著超過了現有方法,這讓他們很受鼓舞。

不過,他們並不滿足於實驗結果超過現有方法多少,而是想要更加全面的評估智能體在 minecraft 中的能力,以及與人類到底還有多少差距。

因此,他們參考了已有工作,並提出一個更加全面的評估基準,來測試現有的智能體在 minecraft 中執行各種長序列任務的能力。

課題組還邀請了一些志願者,要求他們以相同的設定下在 minecraft 中執行各種任務,通過統計任務成功率制定了人類水平基線。通過全面的對比實驗,他們所提出的 optimus-1 優於當前所有的智能體,並且在部分任務上接近人類水平的表現。

日前,相關論文以《optimus-1:混合多模態記憶賦能的智能體在長期任務中表現出色》(optimus-1 : hybrid multimodal memory empowered agents excel in long-horizon tasks)為題發在人工智能國際會議—神經信息處理系統會議(neurips 2024,conference on neural information processing systems)[1]。

哈工深團隊提出多模態智能體Optimus-1,在MineCraft長序列任務表現接近人類水平 - 天天要聞圖 | 相關論文(來源:arxiv)

目前,該團隊的現有方案借鑒於人類大腦和小腦的關係:大腦負責任務規劃和反思,將複雜任務拆解為一系列可執行的步驟,小腦負責依次執行這些步驟以完成最終任務。接下來,他們計劃對“大腦”和“小腦”進行有機的“耦合”,構造一個端到端式的智能體。

參考資料:

1.https://neurips.cc/virtual/2024/poster/94762

2.https://cybertronagent.github.io/optimus-1.github.io/

運營/排版:何晨龍

科學分類資訊推薦

“軟黃金”冬蟲夏草,你真的了解嗎? - 天天要聞

“軟黃金”冬蟲夏草,你真的了解嗎?

冬蟲夏草千年傳承的滋補良藥採藥人的尋覓自公元780年起冬蟲夏草便以其獨特的藥用價值被載入史冊從《藏本草》到《中國藥典》均有記載李時珍更將其譽為“人身不老葯”贊其兼具蟲之陽剛與草之陰柔成為中藥中獨一無二的“陰陽同補”聖品享有“東方聖草”“葯中
【鏈博傳奇】中國中車:塑軌道之“鏈”,與世界同行 - 天天要聞

【鏈博傳奇】中國中車:塑軌道之“鏈”,與世界同行

中國中車集團有限公司(以下簡稱“中國中車”)是中國軌道交通裝備領域的“鏈”主企業,是全球規模領先、品種齊全、技術一流的高端裝備製造商和系統解決方案提供商,清潔能源裝備骨幹企業。當前,中國中車搭建了世界領先的軌道交通裝備產品技術研發平台,構建了完整的軌道交通裝備產業體系,開創了軌道交通裝備和清潔能源裝...
全國AI精英宜賓對決 長江首城創新大賽點燃人工智能新引擎 - 天天要聞

全國AI精英宜賓對決 長江首城創新大賽點燃人工智能新引擎

中新網四川新聞7月11日電(吳平華 楊錦 )智匯長江首城,共享成長價值,10日,由宜賓市科學技術局、宜賓市數據局、宜賓市高鐵南片區開發建設指揮部辦公室聯合主辦,北京中關村信息穀資產管理有限責任公司承辦的“長江首城宜創匯”協同創新大賽人工智能
地質隊日記:塔克拉瑪干腹地,沙丘下出現巨大的圓形結構 - 天天要聞

地質隊日記:塔克拉瑪干腹地,沙丘下出現巨大的圓形結構

記錄人:劉哲,西部油氣地質勘查第六分隊 / 塔里木盆地沙地淺層剖面組成員時間:2023年5月10日地點:塔克拉瑪干沙漠腹地,庫車–民豐剖面中段那是一次平常不過的地震波剖面測線任務,我們團隊負責在塔克拉瑪干腹地沿一條南北走向布點,配合衛星圖像
電機基礎標準:GB/T 14711 標準狀態及修訂情況 - 天天要聞

電機基礎標準:GB/T 14711 標準狀態及修訂情況

在電氣設備領域,中小型旋轉電機作為工業生產、日常生活等場景的重要動力設備,其安全性能至關重要。隨着電機製造技術的飛速發展,新材料、新工藝不斷應用於電機生產;同時,電機的應用場景也日益多樣化,在新能源、智能製造等新興領域的需求持續增長。
月球內部“異常貧瘠”?嫦娥六號月球背面岩石有望揭示謎底 - 天天要聞

月球內部“異常貧瘠”?嫦娥六號月球背面岩石有望揭示謎底

月球正反面為何大不同?月球演化都有哪些關鍵謎題?國際學術期刊《自然》日前正式發表了中國嫦娥六號月球背面採樣任務的又一重大科學成果。該成果為全面了解月球早期的殼-幔演化歷史提供了關鍵信息。該成果由中國科學院國家天文台和中國科學院地質與地球物理研究所共同完成。科研團隊對嫦娥六號從月球背面南極-艾特肯盆地帶...