面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了

2025年06月26日16:13:07 科技 1771

面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence,在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果,被广泛应用于学术界与产业实践中。


用于辅助科学研究的大模型智能体,正在悄然发生变化


1 背景与动机


过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键场域,基于这些强大模型的智能体正悄然成为科研工作流的 “新型合作者”。


在早期,AI 在科学中的角色往往是 “分析器”—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖拽、输入命令,或是编写程序完成计算任务,完成对真实科研软件的自动化控制。这意味着,它们不再只是回答问题,而是在主动与你一起完成科学任务,成为具备 “执行能力” 的 AI 合作者。


1-1 从语言理解走向科研执行:全新的挑战


在复杂的科研场景中,软件工具的多样性、任务流程的长周期、跨模态信息的交错,令 “用 AI 真正完成一项科研任务” 远比解答一个科学问题要困难得多。例如,模拟蛋白质结构需要调用生物建模软件,查看星体轨迹要熟练操作天文模拟器,甚至还需要自动将结果整理进 LaTeX 文档。实现这样的能力,需要智能体具备:


  • 软件操作能力:能够使用图形界面(GUI)与命令行(CLI)控制复杂科学工具;
  • 领域理解能力:理解任务背后的科学概念与背景知识;
  • 跨模态感知与规划:在图形界面、终端指令、科学数据之间进行有效推理和行动。


然而,现有的多模态智能体系统大多在网页、电商、编程等通用任务上取得了一定进展,在科学领域却还在蹒跚学步。一个很重要的原因在于:缺乏一个真实、系统化的科研环境与评估基准,来推动 agent 从 “会说会写会敲代码” 走向 “会做”。


1-2 科研任务中的空白:环境与评测的双重缺失


尽管社区已提出多项 CUA 智能体评测(如 WebArena、OSWorld 等),但这些工作大多集中在日常场景和通用软件上,其复杂性远未触及真实科研工作。而以 ScienceQA 和 SciCode 为代表的科学评测人任务,其任务方式依然停留在 QA 和静态的代码编写上。在真实的科学探索过程中,软件工具往往具有非标准 I/O 流、复杂界面逻辑、需要先配置再执行、多步操作才能完成目标 —— 这对智能体提出了前所未有的挑战。因此,我们需要(1)一个可靠的环境让 Agent 可以进行自主探索以及(2)一个多模态多领域的评测基准,来了解科学任务的自动化可以被完成到何种程度


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


在这样的背景下,我们提出了 ScienceBoard:首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,目标是从根本上推动 “会自动完成科学工作流的 AI” 的研究进展。


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


  • 论文题目:
  • ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
  • 项目地址:
  • https://qiushisun.github.io/ScienceBoard-Home/
  • 研究机构:香港大学,上海人工智能实验室,复旦大学,北京大学,耶鲁大学


2 ScienceBoard 基建:科研任务的可交互操作环境


2-1 多领域科研软件集成


ScienceBoard 基于 Ubuntu 虚拟机搭建,内置了多个开源科研软件,并对其进行了系统性的重构和改造,确保每个任务都能通过 CLI / GUI 双通道进行交互。整个系统具备以下特点:


  • 多领域科研软件集成:作为一个可扩展的环境,ScienceBoard 默认集成了 6 个科学领域的软件,包括生物化学,天文模拟,地理信息系统等。
  • 双模态操作接口:每个软件均支持 GUI 和 CLI 控制,支持屏幕截图(Screenshots)、可访问性树 (a11ytree)和 Set-of-Marks 等多模态输入,允许 agent 灵活选择交互方式。
  • 自动初始化机制:每个工作场景都配备初始化脚本、配置文件、辅助数据,确保 agent 可以从相同起点开始实验,保证评测可复现性。
  • 可靠的自动评估机制:作者们编写了一整套可扩展的任务评估函数,支持数值匹配、范围区间、状态对比等方式,对复杂科学操作实现执行级评估(execution-based evaluation)。


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


2-2 动作空间


为了让 agent 能在不同任务中使用统一接口与动作表示,ScienceBoard 在先前 CUA/Coding Agents 工作的基础上进行了扩展,为 Agents 定义了一个通用动作空间,涵盖以下几类操作:


  • GUI 操作动作:如 CLICK [x, y]、SCROLL [Δy]、TYPE [“text”] 等模拟人类操作
  • CLI 命令执行:在终端 / 软件内部输入代码指令并获取反馈
  • 其它类型调用
  • ocall_api:访问外部 API 拓展 agent 能力
  • oanswer [“...”]:用于任务型 QA 作答
  • 流程控制动作:如 DONE, FAIL 等用于表明交互终止

  • 这样的设计使得通过 LLM/VLM 构建的不同 agent 在 ScienceBoard 环境中都能通过结构化 API 实现通用交互能力,真正具备 “跨软件、跨模态” 的通用执行接口。

3 ScienceBoard 评测集:高质量科研任务数据集


基于上述的多模态科学探索环境基建,ScienceBoard 构建了一个系统化、具挑战性的科研任务集合,作为评估 AI 智能体科学能力的标准基准。该基准不仅覆盖多种科研软件,还充分考虑任务多样性、复杂度和可执行性,目标是推动智能体从 “看得懂” 走向 “做得对”。


3-1 科学探索问题的构建


要评估一个智能体是否真正具备完成科学任务的能力,关键不仅在于环境,更在于任务本身是否足够真实、足够复杂、足够可衡量。为此,ScienceBoard 采用了人工设计 + 程序验证的混合标注流程:由学习过相关领域知识的人员基于真实软件手册构思任务目标,通过多轮交叉验证确保指令清晰、操作合理,再配套自动初始化脚本与程序化评估函数,最终构成一个高度标准化、可复现、可自动评估的科研任务集合。


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


3-2 多维评测基准


ScienceBoard 的当前版本共收录 169 个真实科研任务,横跨 6 个领域(及其对应配套的软件),任务类型涵盖:基础软件与环境设置,科学模拟与计算,图形绘制与空间可视化,数据查询与结果解释,科研文档撰写与整合,跨软件复合工作流等等


科学领域

示例任务

生物建模(ChimeraX)

调用 AlphaFold 模型预测蛋白质结构

天文模拟(Celestia)

调整 Julian 日期并展示行星轨道

数学计算(KAlgebra)

绘制 Bernoulli 曲线并分析其极限点

地理建模(GrassGIS)

叠加地形图层并计算边界区域面积

定理证明(Lean 4)

使用归纳法构建形式化证明

科研写作(TeXstudio)

撰写实验报告摘要并插入生成图表


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


为系统性考察智能体的不同层级能力,任务被划分为四类难度:


  • Easy(~54%):执行单步配置、简单计算和编程、操作界面
  • Medium(~28%):涉及多步指令、逻辑推理或跨模态状态跟踪与记忆
  • Hard(~17%):需完成 Long-horizon 规划、精细的 GUI 定位、多程序协作等
  • Open Problems:当前 SOTA 模型仍不可能完成的开放探索挑战性任务


4 实验与评估


我们在 ScienceBoard 评测基准上评估了当前代表性的(1)商业模型(2)开源模型(3)GUI 基座模型所构建的智能体的表现,结果揭示:即便是当今最强的多模态大模型,在真实科研工作流中也远未成熟。


4-1 主要实验


在整体任务成功率上:


1.GPT-4o 和 Claude 3.5 等商业大模型虽领先于开源模型,但平均成功率也仅为 15% 左右;


2. 开源的 InternVL3 和 Qwen2.5-VL 在部分任务上有超越商业模型的表现,但跨领域表现仍不稳定;


专门设计的 GUI Action Models 如 OS-ATLAS、UGround 等,虽然对接系统更轻量,却在长任务、跨模态任务上明显受限。


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


可以从实验中看出:完成科学工作流的门槛远高于 Web browsing 任务或移动 / 桌面端应用的交互。模型需要在视觉、结构化数据、复杂指令之间基于领域知识多轮推理、长程规划。


更重要的是,我们在实验中发现:许多失败并非源于模型知识不足,而是执行策略不当。例如,模型可能正确理解了 “导出蛋白质结构图”,却因点击顺序错误而未能完成任务。


4-2 拆解规划与动作


进一步的分析实验还揭示了一个耐人寻味的趋势:许多失败的智能体其实 “知道要做什么”,却 “做不好”。以 GPT-4o 为代表的模型,在任务规划上展现了强大的理解能力,但在面对真实界面时,常因点击不准(e.g., 无法点中正确的星球)、路径偏差而执行失败。这表明:当前模型在 “想清楚” 与 “做准确” 之间仍存在断层


为进一步验证这一现象,我们尝试将规划(Planning)与执行(Action)解耦,构建模块化智能体系统:由 GPT-4o 负责生成高阶计划,再由各类开源 VLM 或 GUI Action Model 执行具体操作。


面向科学任务、自动评估多模态智能体评测环境ScienceBoard来了 - 天天要闻


实验结果显示:这种模块化设计显著提升了成功率,尤其在界面复杂、操作链条长的科研软件任务中,能够更稳健地完成目标。


5 展望


ScienceBoard 的实验表明,当前智能体的瓶颈不仅在操作层,更在于领域知识与通用 agent 能力的割裂。许多模型可以正确地执行点击或输入命令,但缺乏对科学任务背后知识的理解。因此,未来的关键方向在于:让智能体真正 “理解科学”。这或许包括利用 Manual 与 Tutorial 等资源进行 “任务相关学习”,或构建可根据上下文调用外部知识的系统,


另一个值得关注的方向是智能体系统。我们的实验显示,即使是简单的 “分工合作” 策略(如 GPT-4o 负责计划、其他模型负责执行)也能带来显著收益。这为未来的 “科研 AI 团队” 奠定了雏形:一个系统可能由具备强逻辑推理能力的 planner、擅长执行的 GUI 模型、掌握专业知识的领域专家模型组成。它们可按需组合,灵活适配科研生命周期中的不同阶段,从数据分析、图表生成到论文润色,真正成为 “可编排、可插拔” 的科研伙伴。


更长远地看,ScienceBoard 提出的框架也为实验室层面的智能化探索打下了基础。从虚拟科研助手,到物理实验机器人,从 Coding / QA 模型到实验助手,AI 科学家的未来,不再只是数字世界里的概念,而是正在缓慢走向现实。


6 结束语


作为首个聚焦科学探索任务的多模态智能体评测框架。ScienceBoard 提供了一个真实可交互的科研环境,精心设计了具有代表性的科研任务,并配套程序化评估机制,系统性评估现有模型在科学任务上的表现。实验发现,即便是当前最强的通用模型,在复杂科研工作流中的成功率仍显著低于人类,尽管智能体自动化科学探索仍是一个长期目标,但本工作提供了一个可复现、可衡量、可扩展的起点,也为通向全自动化 AI 科学家之路点亮了第一盏灯。

科技分类资讯推荐

vivo X Fold5开启预售!三防长续航轻办公,双机党效率神器 - 天天要闻

vivo X Fold5开启预售!三防长续航轻办公,双机党效率神器

在折叠屏的演进路径上,vivo始终处于行业领先。全新的vivo X Fold5,作为vivo史上最强折叠旗舰,不仅兼顾轻薄设计与性能配置,更在办公协同、生态互通等方面带来前所未有的体验。对注重生产力的用户而言,它不只是手机,更是口袋里的轻办
马斯克:特斯拉 Optimus V3 人形机器人将集成 Grok 语音助手 - 天天要闻

马斯克:特斯拉 Optimus V3 人形机器人将集成 Grok 语音助手

IT之家 6 月 26 日消息,特斯拉 CEO 马斯克昨日于 X 平台发文,表示 Optimus V3 人形机器人将整合 Grok 语音助手,利用 AI 大模型进行语音交互。马斯克首先表示,Optimus V3 人形机器人将会变得“”(该表情符号有对美食赞赏的意味),同时还称赞了特斯拉 Optimus 团队。后续,有网友评论道“Optimus 会运行 Gro
“禁带无3C标及被召回充电宝乘机”新规出台,天山机场上百个不合规充电宝被拦截 - 天天要闻

“禁带无3C标及被召回充电宝乘机”新规出台,天山机场上百个不合规充电宝被拦截

近日,罗马仕三个型号超49.1万个、安克七个型号超71万个充电宝被召回一事,引发关注。同一型号的充电宝中,符合特定批次的才需召回,但多地出现“快递拒收召回产品、飞机拒载非召回产品”的现象。6月26日上午,有网友发帖称,在乌鲁木齐天山国际机场,没有国家3C认证的充电宝无法带上飞机。截至发稿前,26日凌晨、上午在天...
南美摩配领军者组团来访,爱骑仕EJEAS开启拉美市场新征程 - 天天要闻

南美摩配领军者组团来访,爱骑仕EJEAS开启拉美市场新征程

近日,爱骑仕EJEAS迎来了一群远道而来的尊贵客人——哥斯达黎加、乌拉圭、厄瓜多尔等拉丁美洲国家的摩配行业领军企业代表。这些客户不仅是南美洲摩配市场的领军者,更是全球知名头盔品牌LS2的合作伙伴。他们的到访,不仅是对爱骑仕EJEAS产品实力
京东回应“外卖试点骑手帮扔垃圾”:自愿参加,平台每单补贴0.5元,用户可打赏 - 天天要闻

京东回应“外卖试点骑手帮扔垃圾”:自愿参加,平台每单补贴0.5元,用户可打赏

近日,有网传消息称,京东外卖试点骑手帮扔垃圾,引发关注。对此,京东一名工作人员告诉九派新闻,全职骑手“帮扔垃圾”当前仅停留在方案和小范围测试阶段,并未正式上线,平台将根据反馈对该服务进行评估和优化。据网传截图,在外卖群中,有人发布信息称,从6月19日起,在北京、宿迁首批试点外卖员帮用户扔垃圾,后续又加...
即将实施!节卡机器人主导制定新国家标准 - 天天要闻

即将实施!节卡机器人主导制定新国家标准

近期,由节卡机器人作为牵头起草单位,主导制定的国家标准GB/T 45579-2025《机器人智能化视觉评价方法及等级划分》正式获批发布。该国标填补了全球范围内机器人智能化标准领域的空白,为智能机器人质量提升和建设提供了有力指导,将推动中国机器人产业从“功能实现”向“智能分级”跃迁。 国家标准是我国标准体系中最高层级...
民航局出台充电宝乘机新规:多地机场已开始对充电宝进行安全检查,国际航班暂无限制 - 天天要闻

民航局出台充电宝乘机新规:多地机场已开始对充电宝进行安全检查,国际航班暂无限制

6月26日,中国民航局发布紧急通知,自6月28日起禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。 民航局发布充电宝携带紧急通知。图/中国民用航空局官网截图 该通知发布后,有网友发帖称,已经有机场开始对充电宝进行严格检查,没有3C标识的充电宝会被机场直接扣留,无法通过安检带上飞机。...
食光筑梦 工创未来 - 天天要闻

食光筑梦 工创未来

编者按:智能时代,建造何为?在数字化浪潮席卷全球的今天,建筑业正经历从“钢筋水泥”到“数字孪生”的深刻变革。武汉轻工大学土木工程与建筑学院应势而为,开设智能建造专业,以“智”为擎、以“建”为基,培养引领行业未来的复合型人才。
中国电信云总机(S版)定制招生通话“破局”方案,“丝滑”应对海量咨询! - 天天要闻

中国电信云总机(S版)定制招生通话“破局”方案,“丝滑”应对海量咨询!

招生季的电话铃声此起彼伏,热线被打爆、咨询如潮涌——家长焦急询问学区划分、入学政策;考生急切查询分数线、专业详情;中小学忙于新生登记、政策解读;考试中心更是被报名咨询、考场安排等电话淹没……传统人工接听模式捉襟见肘,效率欠佳、错漏频发、体验打折,不仅消耗宝贵人力,更可能错失优质生源。 如何让每一次来电都成为...