大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini

2025年04月07日13:14:03 科技 1057


大型語言模型 (LLM) 在軟體機器人設計領域展現出了令人振奮的應用潛力。 密歇根大學安娜堡分校的研究團隊開發了一個名為「 RoboCrafter-QA」的基準測試,用於評估 LLM 在軟體機器人設計中的表現,探索了這些模型能否擔任機器人設計的「自然選擇器」角色


這項研究為 AI 輔助軟體機器人設計開闢了嶄新道路,有望實現更自動化、更智能的設計流程。


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


  • 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang

  • 機構: 密歇根大學安娜堡分校

  • 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design

  • Github:https://github.com/AisenGinn/evogym_data_generation

  • 視頻:https://youtu.be/bM_Ez7Da4ME


研究背景


軟體機器人相比傳統剛性機器人具有顯著優勢,特別是在複雜、非結構化和動態環境中,其固有的柔順性能夠實現更安全、更適應性強的交互。然而,軟體機器人設計面臨巨大挑戰:


  1. 與剛性機器人明確定義的運動鏈不同,軟體機器人擁有幾乎無限的自由度

  2. 非線性材料特性複雜

  3. 需要精密協調形態、驅動和控制系統


這些因素使軟體機器人設計成為一項高度挑戰性的多學科問題,傳統上依賴專家直覺、迭代原型設計和計算成本高昂的模擬。


研究創新:從生物進化到 AI 驅動設計


研究團隊提出了生物和機器人設計範式的概念性轉變:


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


  1. 生物進化:通過自然選擇壓力驅動,但進程緩慢且受限。

  2. 人類工程設計:由人類直覺和專業知識引導,但仍受人類認知能力限制。

  3. AI 驅動設計:LLM 作為「自然選擇器」,利用其龐大的知識庫評估和指導軟體機器人的設計。


RoboCrafter-QA 基準測試


研究團隊開發的 RoboCrafter-QA 基準測試專門用於評估多模態 LLM 對軟體機器人設計理解的能力。該測試採用問答形式,為 LLM 提供環境描述和任務目標,然後要求模型從兩個候選機器人設計中選擇性能更佳的一個。


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


數據生成流程


  1. 設計空間定義 :在 5×5 的基於體素的設計空間中進行機器人形態演化,每個體素代表一種材料類型(空、剛性、軟性、水平驅動器或垂直驅動器)。

  2. 進化過程 :從 30 個隨機生成的獨特機器人設計開始,使用經過 PPO(近端策略優化)訓練的控制器評估每個機器人。

  3. 選擇與變異 :保留每代中表現最佳的 50% 機器人,其餘通過變異產生後代,確保設計多樣性


測試任務多樣性


基準測試包含 12 種不同的任務環境,涵蓋:


  • 運動任務(如平地行走、橋樑行走)

  • 物體操作(如推動、攜帶)

  • 攀爬與平衡任務


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


不同結構的機器人的性能差異示意:


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


問題示例:


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞

評估指標


  1. 準確率 :模型生成與預期答案匹配的比例

  2. 一致性 :衡量 LLM 響應的可重複性

  3. 難度加權準確率 (DWA) :根據機器人任務性能的細微差異量化模型的判別能力


實驗結果


研究團隊對四種最先進的大型語言模型進行了測試評估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞

主要發現:


  1. 模型性能層次 :Gemini-1.5-Pro 在簡單任務(68.75%)和困難任務(62.48%)中均表現最佳,其次是 Gemini-2.0-flash 和 Grok-2(準確率約 66%),而 GPT-o3-mini 表現最弱。

  2. 任務難度敏感性 :所有模型在更複雜的任務中準確率均有下降,特別是當需要區分細微性能差異的設計時。例如,Gemini-1.5-Pro 在 Walker-v0 任務中,簡單級別準確率為 75.40%,困難級別則降至 65.20%。

  3. 模型在特定環境中的弱點 :在跳躍和雙向行走等任務中,所有模型均表現出明顯弱點,這可能與這些任務需要精確時序控制或處理雙向決策相關。


性能分析:獎勵差異水平分析


為評估 LLM 在不同難度水平下選擇更優設計的能力,研究團隊採用了難度加權準確率 (DWA) 指標。該指標特別關注模型在區分細微性能差異設計時的能力,對難度更高的問題(獎勵差異更小)賦予更高權重。


不同 LLM 的全局 DWA 指標:


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


研究結果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現最佳,達到 63.72%,這表明它在 RoboCrafter-QA 基準測試中具有略微優越的體現設計推理能力。


研究團隊還可視化了不同獎勵差異水平下的錯誤分布情況,發現 LLM 的大部分錯誤出現在 0.8-1.0 的高難度區間,這進一步突顯了當前模型在進行細粒度設計區分方面的局限性。


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


提示設計消融研究


為確定影響 LLM 做出正確選擇的關鍵因素,研究團隊針對提示設計進行了消融研究,重點關注任務描述和驅動器描述對模型性能的影響。研究還進行了一項實驗,修改提示指令,要求 LLM 選擇表現較差的設計而非較好的設計,以進一步分析 LLM 決策過程的穩健性。


提示設計消融研究結果:


大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


消融研究結果揭示了任務描述和驅動器描述在促使語言模型選擇最優設計中的關鍵作用:


  1. 任務描述的重要性 :模糊任務描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強調了任務描述在引導 LLM 決策過程中的重要性。

  2. 驅動器描述的影響有限 :忽略驅動器描述 (NoAct) 對性能影響較小,性能保持穩定或略有變化。這可能表明在缺乏驅動器信息的情況下,LLM 會假設驅動器能夠最大化設計的獎勵。

  3. 選擇較差設計的挑戰 :當指示模型選擇較差的設計時,模型表現出比完整信息提示更低的準確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們在識別劣質設計方面不太擅長,可能是由於訓練偏向於選擇更好的設計所致。


這些發現強調了在設計選擇任務中,為最大化 LLM 性能提供全面任務描述的必要性。與此同時,研究也表明當前模型在理解設計權衡和進行反直覺選擇(如選擇較差設計)方面仍存在局限性,這可能需要通過更具針對性的訓練或提示策略來解決。


總結與啟示


通過對獎勵差異水平的性能分析和提示設計消融研究,我們可以看出:


  1. 當前最先進的 LLM 在區分明顯不同的設計時錶現良好,但在處理細微性能差異時仍面臨挑戰。

  2. 提供清晰、全面的任務描述對於 LLM 做出正確設計選擇至關重要。

  3. 模型表現出偏向選擇更優設計的趨勢,這與其預訓練方式可能有關。


這些發現為利用 LLM 進行軟體機器人設計提供了重要指導,同時也揭示了未來改進方向:可能需要開發針對體現設計的特定訓練策略,或構建更複雜的提示框架,以提高模型在處理細微設計權衡時的性能。


實用價值:LLM 輔助機器人設計初始化


除了評估模型選擇能力外,研究還探索了 LLM 在設計初始化中的應用。通過提供參考環境中的高獎勵和低獎勵設計實例,研究測試了 LLM 是否能為新環境生成可行的初始設計。

大語言模型變身軟體機器人設計「自然選擇器」,GPT、Gemini - 天天要聞


實驗結果表明:


  • 具有參考知識的 LLM 生成的設計全部有效,平均獎勵值達 0.115,方差僅為 0.035。

  • 無參考知識的設計中僅 38% 有效,平均獎勵為 - 0.607。

  • 隨機基線雖然產生了 100% 有效設計,但平均獎勵較低(0.044),方差高(0.405)


這表明 LLM 能夠有效地遷移知識,在零樣本設計生成中表現出色。


研究結論與展望


RoboCrafter-QA 基準測試為評估多模態 LLM 在軟體機器人設計中的表現提供了寶貴工具。研究發現,雖然當前模型在簡單設計選擇上表現良好,但在處理細微權衡和複雜環境時仍面臨挑戰。


未來研究方向:


  1. 探索 LLM 驅動的控制策略優化

  2. 擴展設計空間複雜性

  3. 研究仿真到現實的遷移,包括材料特性和控制器可遷移性

  4. 整合多模態提示(視覺、觸覺)增強 LLM 的設計理解

科技分類資訊推薦

科技旗艦全面進化 問界M9建議零售價46.98萬元起 - 天天要聞

科技旗艦全面進化 問界M9建議零售價46.98萬元起

2025年3月20日,在華為Pura先鋒盛典及鴻蒙智行新品發布會上,全景智慧旗艦SUV問界M9煥新登場。作為鴻蒙智行全景智慧旗艦SUV,問界M9全面進化,攜十大亮點重構豪華標準,為用戶帶來全方位的極致出行體驗。
蘋果市值4天蒸發超5萬億元 微軟重回全球市值第一 - 天天要聞

蘋果市值4天蒸發超5萬億元 微軟重回全球市值第一

站長之家(ChinaZ.com)4月9日 消息:近日,美國市場動態引發全球關注,自4月2日美國宣布實施所謂“對等關稅方案”後,科技巨頭蘋果公司的股價遭遇了顯著波動。據最新市場數據顯示,截至本周二交易結束,蘋果股價已連續四個交易日下滑,累計跌幅高達23%,其總市值因此縮減至2.59萬億美元,與歷史峰值相比,減少了約1.5萬億美...
Siri已可控制小米汽車 還可自定義添加語音控制 - 天天要聞

Siri已可控制小米汽車 還可自定義添加語音控制

站長之家(ChinaZ.com)4月9日 消息:小米汽車正式對外宣布,其車輛現已全面支持通過Siri語音控制,為用戶帶來更加便捷與智能的用車體驗。據小米汽車官方介紹,他們已為車輛預置了一系列實用的語音指令,以滿足用戶日常用車的多種需求。這些預置指令涵蓋了車輛解鎖與鎖定、後備箱的開閉、鳴笛示意、充電口的打開與關閉、閃燈...
曝iPhone17Pro系列可前後攝像頭同步錄製 軟硬件雙提升 - 天天要聞

曝iPhone17Pro系列可前後攝像頭同步錄製 軟硬件雙提升

站長之家(ChinaZ.com)4月9日 消息:近日,有消息透露iPhone17Pro系列在相機配置上迎來重大升級。據悉,該系列機型後置相機將搭載三顆均為4800萬像素的鏡頭,涵蓋4800萬主攝、4800萬超廣角以及4800萬潛望長焦,同時前置相機也升級至2400萬像素,為用戶帶來更為清晰、細膩的拍攝體驗。除了硬件上的升級,iPhone17Pro系列在軟..
騰訊客服回應微信開通已讀功能:暫無計劃推出 - 天天要聞

騰訊客服回應微信開通已讀功能:暫無計劃推出

站長之家(ChinaZ.com)4月9日 消息:近日,關於微信新功能的討論在網絡上掀起熱潮,眾多網友紛紛表達了對特定功能的看法。據網友反饋,已讀及訪客功能成為大家關注的焦點,多數用戶對此持堅決反對態度,甚至表示若此類功能上線,將考慮放棄使用微信。針對網友的關切,有用戶嘗試通過騰訊客服渠道尋求答案,得到的官方回應是...
誰在搶奪武漢的“流量”? - 天天要聞

誰在搶奪武漢的“流量”?

每經記者:楊棄非 每經編輯:楊歡圖片來源:攝圖網_500542375每年一到賞花季,旅遊“主場”就來到了武漢。有統計顯示,武漢已連續5年榮登賞櫻熱度榜首,賞櫻更帶動了武漢各大景區門票訂單、酒店訂單增長。由此,當地媒體無不自豪地稱武漢為“櫻花第一城”。而今年,眼饞這一席“櫻花宴”的城市,明顯多了不少。同為老牌賞櫻...
首次超越三星!SK海力士成全球最大DRAM供應商 - 天天要聞

首次超越三星!SK海力士成全球最大DRAM供應商

4月9日消息,根據調研機構Counterpoint Research最新發布的2025年一季度DRAM市場追蹤報告顯示,SK海力士以36%的營收市佔率首度超越三星電子,成為了全球第一大DRAM供應商。排名第二的三星,其市佔率為34%,低於SK海力士約2個百分點。緊隨其後的美光市佔率為25%,其他廠商僅有5%的份額。SK海力士還預期,其營收與市佔率的增...
裁員賠償400萬,奔馳太狠了! - 天天要聞

裁員賠償400萬,奔馳太狠了!

這個自願離職是有說法的。國外裁員,企業得先跟工會談,工會的意思是,裁員可以但不能這麼粗暴。於是奔馳就想了個辦法:超高補償金,誘惑你主動離職。
蘋果產業高質量發展座談會在濰坊諸城召開 - 天天要聞

蘋果產業高質量發展座談會在濰坊諸城召開

近日,蘋果產業高質量發展座談會在濰坊諸城召開。山東省農業農村廳黨組成員、副廳長楊武傑出席會議並講話。 楊武傑指出,山東作為全國蘋果產業核心產區,承擔著引領產業升....
“微信開通已讀功能”衝上熱搜!官方回應 - 天天要聞

“微信開通已讀功能”衝上熱搜!官方回應

【來源:遼寧日報】近日,多名網友討論社交軟件上“已讀顯示”及“訪客記錄”等功能。有部分網友表示,由於可能會暴露閱讀狀態,導致社交壓力,堅決反對微信開通上述兩個功能。騰訊客服表示,目前微信暫無消息已讀功能。 隨後,相關話題登上熱搜。