大型語言模型 (LLM) 在軟體機器人設計領域展現出了令人振奮的應用潛力。 密歇根大學安娜堡分校的研究團隊開發了一個名為「 RoboCrafter-QA」的基準測試,用於評估 LLM 在軟體機器人設計中的表現,探索了這些模型能否擔任機器人設計的「自然選擇器」角色 。
這項研究為 AI 輔助軟體機器人設計開闢了嶄新道路,有望實現更自動化、更智能的設計流程。

-
作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang
-
機構: 密歇根大學安娜堡分校
-
原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design
-
Github:https://github.com/AisenGinn/evogym_data_generation
-
視頻:https://youtu.be/bM_Ez7Da4ME
研究背景
軟體機器人相比傳統剛性機器人具有顯著優勢,特別是在複雜、非結構化和動態環境中,其固有的柔順性能夠實現更安全、更適應性強的交互。然而,軟體機器人設計面臨巨大挑戰:
-
與剛性機器人明確定義的運動鏈不同,軟體機器人擁有幾乎無限的自由度
-
非線性材料特性複雜
-
需要精密協調形態、驅動和控制系統
這些因素使軟體機器人設計成為一項高度挑戰性的多學科問題,傳統上依賴專家直覺、迭代原型設計和計算成本高昂的模擬。
研究創新:從生物進化到 AI 驅動設計
研究團隊提出了生物和機器人設計範式的概念性轉變:

-
生物進化:通過自然選擇壓力驅動,但進程緩慢且受限。
-
人類工程設計:由人類直覺和專業知識引導,但仍受人類認知能力限制。
-
AI 驅動設計:LLM 作為「自然選擇器」,利用其龐大的知識庫評估和指導軟體機器人的設計。
RoboCrafter-QA 基準測試
研究團隊開發的 RoboCrafter-QA 基準測試專門用於評估多模態 LLM 對軟體機器人設計理解的能力。該測試採用問答形式,為 LLM 提供環境描述和任務目標,然後要求模型從兩個候選機器人設計中選擇性能更佳的一個。

數據生成流程
-
設計空間定義 :在 5×5 的基於體素的設計空間中進行機器人形態演化,每個體素代表一種材料類型(空、剛性、軟性、水平驅動器或垂直驅動器)。
-
進化過程 :從 30 個隨機生成的獨特機器人設計開始,使用經過 PPO(近端策略優化)訓練的控制器評估每個機器人。
-
選擇與變異 :保留每代中表現最佳的 50% 機器人,其餘通過變異產生後代,確保設計多樣性。
測試任務多樣性
基準測試包含 12 種不同的任務環境,涵蓋:
-
運動任務(如平地行走、橋樑行走)
-
物體操作(如推動、攜帶)
-
攀爬與平衡任務

不同結構的機器人的性能差異示意:

問題示例:

評估指標
-
準確率 :模型生成與預期答案匹配的比例
-
一致性 :衡量 LLM 響應的可重複性
-
難度加權準確率 (DWA) :根據機器人任務性能的細微差異量化模型的判別能力
實驗結果
研究團隊對四種最先進的大型語言模型進行了測試評估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

主要發現:
-
模型性能層次 :Gemini-1.5-Pro 在簡單任務(68.75%)和困難任務(62.48%)中均表現最佳,其次是 Gemini-2.0-flash 和 Grok-2(準確率約 66%),而 GPT-o3-mini 表現最弱。
-
任務難度敏感性 :所有模型在更複雜的任務中準確率均有下降,特別是當需要區分細微性能差異的設計時。例如,Gemini-1.5-Pro 在 Walker-v0 任務中,簡單級別準確率為 75.40%,困難級別則降至 65.20%。
-
模型在特定環境中的弱點 :在跳躍和雙向行走等任務中,所有模型均表現出明顯弱點,這可能與這些任務需要精確時序控制或處理雙向決策相關。
性能分析:獎勵差異水平分析
為評估 LLM 在不同難度水平下選擇更優設計的能力,研究團隊採用了難度加權準確率 (DWA) 指標。該指標特別關注模型在區分細微性能差異設計時的能力,對難度更高的問題(獎勵差異更小)賦予更高權重。
不同 LLM 的全局 DWA 指標:

研究結果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現最佳,達到 63.72%,這表明它在 RoboCrafter-QA 基準測試中具有略微優越的體現設計推理能力。
研究團隊還可視化了不同獎勵差異水平下的錯誤分布情況,發現 LLM 的大部分錯誤出現在 0.8-1.0 的高難度區間,這進一步突顯了當前模型在進行細粒度設計區分方面的局限性。

提示設計消融研究
為確定影響 LLM 做出正確選擇的關鍵因素,研究團隊針對提示設計進行了消融研究,重點關注任務描述和驅動器描述對模型性能的影響。研究還進行了一項實驗,修改提示指令,要求 LLM 選擇表現較差的設計而非較好的設計,以進一步分析 LLM 決策過程的穩健性。
提示設計消融研究結果:

消融研究結果揭示了任務描述和驅動器描述在促使語言模型選擇最優設計中的關鍵作用:
-
任務描述的重要性 :模糊任務描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強調了任務描述在引導 LLM 決策過程中的重要性。
-
驅動器描述的影響有限 :忽略驅動器描述 (NoAct) 對性能影響較小,性能保持穩定或略有變化。這可能表明在缺乏驅動器信息的情況下,LLM 會假設驅動器能夠最大化設計的獎勵。
-
選擇較差設計的挑戰 :當指示模型選擇較差的設計時,模型表現出比完整信息提示更低的準確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們在識別劣質設計方面不太擅長,可能是由於訓練偏向於選擇更好的設計所致。
這些發現強調了在設計選擇任務中,為最大化 LLM 性能提供全面任務描述的必要性。與此同時,研究也表明當前模型在理解設計權衡和進行反直覺選擇(如選擇較差設計)方面仍存在局限性,這可能需要通過更具針對性的訓練或提示策略來解決。
總結與啟示
通過對獎勵差異水平的性能分析和提示設計消融研究,我們可以看出:
-
當前最先進的 LLM 在區分明顯不同的設計時錶現良好,但在處理細微性能差異時仍面臨挑戰。
-
提供清晰、全面的任務描述對於 LLM 做出正確設計選擇至關重要。
-
模型表現出偏向選擇更優設計的趨勢,這與其預訓練方式可能有關。
這些發現為利用 LLM 進行軟體機器人設計提供了重要指導,同時也揭示了未來改進方向:可能需要開發針對體現設計的特定訓練策略,或構建更複雜的提示框架,以提高模型在處理細微設計權衡時的性能。
實用價值:LLM 輔助機器人設計初始化
除了評估模型選擇能力外,研究還探索了 LLM 在設計初始化中的應用。通過提供參考環境中的高獎勵和低獎勵設計實例,研究測試了 LLM 是否能為新環境生成可行的初始設計。

實驗結果表明:
-
具有參考知識的 LLM 生成的設計全部有效,平均獎勵值達 0.115,方差僅為 0.035。
-
無參考知識的設計中僅 38% 有效,平均獎勵為 - 0.607。
-
隨機基線雖然產生了 100% 有效設計,但平均獎勵較低(0.044),方差高(0.405)
這表明 LLM 能夠有效地遷移知識,在零樣本設計生成中表現出色。
研究結論與展望
RoboCrafter-QA 基準測試為評估多模態 LLM 在軟體機器人設計中的表現提供了寶貴工具。研究發現,雖然當前模型在簡單設計選擇上表現良好,但在處理細微權衡和複雜環境時仍面臨挑戰。
未來研究方向:
-
探索 LLM 驅動的控制策略優化
-
擴展設計空間複雜性
-
研究仿真到現實的遷移,包括材料特性和控制器可遷移性
-
整合多模態提示(視覺、觸覺)增強 LLM 的設計理解