大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini

2025年04月07日13:14:03 科技 1057


大型語言模型 (LLM) 在軟體機械人設計領域展現出了令人振奮的應用潛力。 密歇根大學安娜堡分校的研究團隊開發了一個名為「 RoboCrafter-QA」的基準測試,用於評估 LLM 在軟體機械人設計中的表現,探索了這些模型能否擔任機械人設計的「自然選擇器」角色


這項研究為 AI 輔助軟體機械人設計開闢了嶄新道路,有望實現更自動化、更智能的設計流程。


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


  • 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang

  • 機構: 密歇根大學安娜堡分校

  • 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design

  • Github:https://github.com/AisenGinn/evogym_data_generation

  • 視頻:https://youtu.be/bM_Ez7Da4ME


研究背景


軟體機械人相比傳統剛性機械人具有顯著優勢,特別是在複雜、非結構化和動態環境中,其固有的柔順性能夠實現更安全、更適應性強的交互。然而,軟體機械人設計面臨巨大挑戰:


  1. 與剛性機械人明確定義的運動鏈不同,軟體機械人擁有幾乎無限的自由度

  2. 非線性材料特性複雜

  3. 需要精密協調形態、驅動和控制系統


這些因素使軟體機械人設計成為一項高度挑戰性的多學科問題,傳統上依賴專家直覺、迭代原型設計和計算成本高昂的模擬。


研究創新:從生物進化到 AI 驅動設計


研究團隊提出了生物和機械人設計範式的概念性轉變:


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


  1. 生物進化:通過自然選擇壓力驅動,但進程緩慢且受限。

  2. 人類工程設計:由人類直覺和專業知識引導,但仍受人類認知能力限制。

  3. AI 驅動設計:LLM 作為「自然選擇器」,利用其龐大的知識庫評估和指導軟體機械人的設計。


RoboCrafter-QA 基準測試


研究團隊開發的 RoboCrafter-QA 基準測試專門用於評估多模態 LLM 對軟體機械人設計理解的能力。該測試採用問答形式,為 LLM 提供環境描述和任務目標,然後要求模型從兩個候選機械人設計中選擇性能更佳的一個。


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


數據生成流程


  1. 設計空間定義 :在 5×5 的基於體素的設計空間中進行機械人形態演化,每個體素代表一種材料類型(空、剛性、軟性、水平驅動器或垂直驅動器)。

  2. 進化過程 :從 30 個隨機生成的獨特機械人設計開始,使用經過 PPO(近端策略優化)訓練的控制器評估每個機械人。

  3. 選擇與變異 :保留每代中表現最佳的 50% 機械人,其餘通過變異產生後代,確保設計多樣性


測試任務多樣性


基準測試包含 12 種不同的任務環境,涵蓋:


  • 運動任務(如平地行走、橋樑行走)

  • 物體操作(如推動、攜帶)

  • 攀爬與平衡任務


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


不同結構的機械人的性能差異示意:


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


問題示例:


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞

評估指標


  1. 準確率 :模型生成與預期答案匹配的比例

  2. 一致性 :衡量 LLM 響應的可重複性

  3. 難度加權準確率 (DWA) :根據機械人任務性能的細微差異量化模型的判別能力


實驗結果


研究團隊對四種最先進的大型語言模型進行了測試評估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞

主要發現:


  1. 模型性能層次 :Gemini-1.5-Pro 在簡單任務(68.75%)和困難任務(62.48%)中均表現最佳,其次是 Gemini-2.0-flash 和 Grok-2(準確率約 66%),而 GPT-o3-mini 表現最弱。

  2. 任務難度敏感性 :所有模型在更複雜的任務中準確率均有下降,特別是當需要區分細微性能差異的設計時。例如,Gemini-1.5-Pro 在 Walker-v0 任務中,簡單級別準確率為 75.40%,困難級別則降至 65.20%。

  3. 模型在特定環境中的弱點 :在跳躍和雙向行走等任務中,所有模型均表現出明顯弱點,這可能與這些任務需要精確時序控制或處理雙向決策相關。


性能分析:獎勵差異水平分析


為評估 LLM 在不同難度水平下選擇更優設計的能力,研究團隊採用了難度加權準確率 (DWA) 指標。該指標特別關注模型在區分細微性能差異設計時的能力,對難度更高的問題(獎勵差異更小)賦予更高權重。


不同 LLM 的全局 DWA 指標:


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


研究結果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現最佳,達到 63.72%,這表明它在 RoboCrafter-QA 基準測試中具有略微優越的體現設計推理能力。


研究團隊還可視化了不同獎勵差異水平下的錯誤分佈情況,發現 LLM 的大部分錯誤出現在 0.8-1.0 的高難度區間,這進一步突顯了當前模型在進行細粒度設計區分方面的局限性。


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


提示設計消融研究


為確定影響 LLM 做出正確選擇的關鍵因素,研究團隊針對提示設計進行了消融研究,重點關注任務描述和驅動器描述對模型性能的影響。研究還進行了一項實驗,修改提示指令,要求 LLM 選擇表現較差的設計而非較好的設計,以進一步分析 LLM 決策過程的穩健性。


提示設計消融研究結果:


大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


消融研究結果揭示了任務描述和驅動器描述在促使語言模型選擇最優設計中的關鍵作用:


  1. 任務描述的重要性 :模糊任務描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強調了任務描述在引導 LLM 決策過程中的重要性。

  2. 驅動器描述的影響有限 :忽略驅動器描述 (NoAct) 對性能影響較小,性能保持穩定或略有變化。這可能表明在缺乏驅動器信息的情況下,LLM 會假設驅動器能夠最大化設計的獎勵。

  3. 選擇較差設計的挑戰 :當指示模型選擇較差的設計時,模型表現出比完整信息提示更低的準確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們在識別劣質設計方面不太擅長,可能是由於訓練偏向於選擇更好的設計所致。


這些發現強調了在設計選擇任務中,為最大化 LLM 性能提供全面任務描述的必要性。與此同時,研究也表明當前模型在理解設計權衡和進行反直覺選擇(如選擇較差設計)方面仍存在局限性,這可能需要通過更具針對性的訓練或提示策略來解決。


總結與啟示


通過對獎勵差異水平的性能分析和提示設計消融研究,我們可以看出:


  1. 當前最先進的 LLM 在區分明顯不同的設計時錶現良好,但在處理細微性能差異時仍面臨挑戰。

  2. 提供清晰、全面的任務描述對於 LLM 做出正確設計選擇至關重要。

  3. 模型表現出偏向選擇更優設計的趨勢,這與其預訓練方式可能有關。


這些發現為利用 LLM 進行軟體機械人設計提供了重要指導,同時也揭示了未來改進方向:可能需要開發針對體現設計的特定訓練策略,或構建更複雜的提示框架,以提高模型在處理細微設計權衡時的性能。


實用價值:LLM 輔助機械人設計初始化


除了評估模型選擇能力外,研究還探索了 LLM 在設計初始化中的應用。通過提供參考環境中的高獎勵和低獎勵設計實例,研究測試了 LLM 是否能為新環境生成可行的初始設計。

大語言模型變身軟體機械人設計「自然選擇器」,GPT、Gemini - 天天要聞


實驗結果表明:


  • 具有參考知識的 LLM 生成的設計全部有效,平均獎勵值達 0.115,方差僅為 0.035。

  • 無參考知識的設計中僅 38% 有效,平均獎勵為 - 0.607。

  • 隨機基線雖然產生了 100% 有效設計,但平均獎勵較低(0.044),方差高(0.405)


這表明 LLM 能夠有效地遷移知識,在零樣本設計生成中表現出色。


研究結論與展望


RoboCrafter-QA 基準測試為評估多模態 LLM 在軟體機械人設計中的表現提供了寶貴工具。研究發現,雖然當前模型在簡單設計選擇上表現良好,但在處理細微權衡和複雜環境時仍面臨挑戰。


未來研究方向:


  1. 探索 LLM 驅動的控制策略優化

  2. 擴展設計空間複雜性

  3. 研究仿真到現實的遷移,包括材料特性和控制器可遷移性

  4. 整合多模態提示(視覺、觸覺)增強 LLM 的設計理解

科技分類資訊推薦

開啟 「雷鳳軍」 時代,硬派新玩家的技術狂飆,鄭州日產Z9開啟預售 - 天天要聞

開啟 「雷鳳軍」 時代,硬派新玩家的技術狂飆,鄭州日產Z9開啟預售

像雷軍雷布斯那樣用互聯網思維造車,以生態圈模式賣車;像小鵬王鳳英那樣管理公司,激發團隊;對標長城魏建軍;開創鄭州日產自己的「雷鳳軍」時代。在3月31日舉辦的鄭州日產 Z9 預售發佈會上,鄭州日產執行副總經理毛力民這句話一出,不僅瞬間點燃了現場,更讓我們看到了鄭
探秘東風汽車博物館:穿越汽車工業的時光隧道 - 天天要聞

探秘東風汽車博物館:穿越汽車工業的時光隧道

3月26日,中部地區首座以汽車工業文化為主題的綜合性博物館——東風汽車博物館正式在湖北十堰開館。這座承載着中國汽車工業半個多世紀奮鬥史的文化地標,在十堰市原第二汽車製造廠(下稱「二汽」)歷史廠區隆重啟幕。它不僅是東風汽車發展歷程的生動記錄者,更是中國汽車工業崛
張若昀同款座駕登場!悅意 03 憑啥成爆款預定? - 天天要聞

張若昀同款座駕登場!悅意 03 憑啥成爆款預定?

最近汽車圈可是熱鬧非凡!3 月 27 日,在充滿詩意與古韻的烏鎮,一汽奔騰搞了個大動作,舉辦了一場盛大的 「為生活 添悅意」 一汽奔騰悅意之夜暨悅意 03 上市發佈會在烏鎮的古樸寧靜與新能源汽車的科技感完美融合,為這場發佈會增添了獨特的魅力。​
逆勢而揚,一汽豐田3月銷售新車7萬台,同比增長22.3% - 天天要聞

逆勢而揚,一汽豐田3月銷售新車7萬台,同比增長22.3%

4月1日,一汽豐田率先公布了3月及一季度銷量數據。3月,一汽豐田銷售新車71,025台,同比增長22.3%;整個2025年一季度,累計銷售新車172,461台,同比增長9.6%。這是繼連續兩年成為正增長主流合資車企之後,一汽豐田再次創造的新增長記錄,續寫了「合
把驗收決定權真正交還用戶手中,問界首開行業先河 - 天天要聞

把驗收決定權真正交還用戶手中,問界首開行業先河

用戶對企業的價值是什麼?堅持以用戶為中心,如何才能做到實處?新能源汽車品牌能為用戶帶來哪些創新服務?隨着問界M9 2025款先行者在工廠驗收交付儀式的成功舉辦,這一系列問題都有了更直觀的答案。在賽力斯超級工廠,問界首開行業先河,做出新的質量承諾:用戶可以親自參