大语言模型变身软体机器人设计“自然选择器”，GPT、Gemini

2025年04月07日13:14:03 科技 1057

大型语言模型 (LLM) 在软体机器人设计领域展现出了令人振奋的应用潜力。密歇根大学安娜堡分校的研究团队开发了一个名为“ RoboCrafter-QA”的基准测试，用于评估 LLM 在软体机器人设计中的表现，探索了这些模型能否担任机器人设计的“自然选择器”角色。

这项研究为 AI 辅助软体机器人设计开辟了崭新道路，有望实现更自动化、更智能的设计流程。

研究背景

软体机器人相比传统刚性机器人具有显著优势，特别是在复杂、非结构化和动态环境中，其固有的柔顺性能够实现更安全、更适应性强的交互。然而，软体机器人设计面临巨大挑战：

这些因素使软体机器人设计成为一项高度挑战性的多学科问题，传统上依赖专家直觉、迭代原型设计和计算成本高昂的模拟。

研究创新：从生物进化到 AI 驱动设计

研究团队提出了生物和机器人设计范式的概念性转变：

RoboCrafter-QA 基准测试

研究团队开发的 RoboCrafter-QA 基准测试专门用于评估多模态 LLM 对软体机器人设计理解的能力。该测试采用问答形式，为 LLM 提供环境描述和任务目标，然后要求模型从两个候选机器人设计中选择性能更佳的一个。

数据生成流程

测试任务多样性

基准测试包含 12 种不同的任务环境，涵盖：

不同结构的机器人的性能差异示意：

问题示例：

评估指标

实验结果

研究团队对四种最先进的大型语言模型进行了测试评估：GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

主要发现：

模型性能层次：Gemini-1.5-Pro 在简单任务（68.75%）和困难任务（62.48%）中均表现最佳，其次是 Gemini-2.0-flash 和 Grok-2（准确率约 66%），而 GPT-o3-mini 表现最弱。
任务难度敏感性：所有模型在更复杂的任务中准确率均有下降，特别是当需要区分细微性能差异的设计时。例如，Gemini-1.5-Pro 在 Walker-v0 任务中，简单级别准确率为 75.40%，困难级别则降至 65.20%。
模型在特定环境中的弱点：在跳跃和双向行走等任务中，所有模型均表现出明显弱点，这可能与这些任务需要精确时序控制或处理双向决策相关。

性能分析：奖励差异水平分析

为评估 LLM 在不同难度水平下选择更优设计的能力，研究团队采用了难度加权准确率 (DWA) 指标。该指标特别关注模型在区分细微性能差异设计时的能力，对难度更高的问题（奖励差异更小）赋予更高权重。

不同 LLM 的全局 DWA 指标：

研究结果显示，Gemini-1.5-Pro 在全球平均 DWA 方面表现最佳，达到 63.72%，这表明它在 RoboCrafter-QA 基准测试中具有略微优越的体现设计推理能力。

研究团队还可视化了不同奖励差异水平下的错误分布情况，发现 LLM 的大部分错误出现在 0.8-1.0 的高难度区间，这进一步突显了当前模型在进行细粒度设计区分方面的局限性。

提示设计消融研究

为确定影响 LLM 做出正确选择的关键因素，研究团队针对提示设计进行了消融研究，重点关注任务描述和驱动器描述对模型性能的影响。研究还进行了一项实验，修改提示指令，要求 LLM 选择表现较差的设计而非较好的设计，以进一步分析 LLM 决策过程的稳健性。

提示设计消融研究结果：

消融研究结果揭示了任务描述和驱动器描述在促使语言模型选择最优设计中的关键作用：

任务描述的重要性：模糊任务描述 (NoEnv) 显著降低了所有模型的性能，例如 GPT-o3-mini 的准确率从 55.34% 降至 52.08%，Gemini-1.5-pro 从 69.75% 降至 62.50%，这强调了任务描述在引导 LLM 决策过程中的重要性。
驱动器描述的影响有限：忽略驱动器描述 (NoAct) 对性能影响较小，性能保持稳定或略有变化。这可能表明在缺乏驱动器信息的情况下，LLM 会假设驱动器能够最大化设计的奖励。
选择较差设计的挑战：当指示模型选择较差的设计时，模型表现出比完整信息提示更低的准确率（例如，Gemini-2.0-flash 从 66.62% 降至 58.45%），这表明它们在识别劣质设计方面不太擅长，可能是由于训练偏向于选择更好的设计所致。