面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了

2025年06月26日16:13:07 科技 1771

面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


第一作者孫秋實是香港大學計算與數據科學學院博士生,碩士畢業於新加坡國立大學數據科學系。主要研究方向為 Computer-using agents 和 Code intelligence,在 NLP 和 ML 頂會 ACL,EMNLP,ICLR,COLM 等發表多篇論文。本文的 OS-Copilot 團隊此前已發佈了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列電腦智能體研究成果,被廣泛應用於學術界與產業實踐中。


用於輔助科學研究的大模型智能體,正在悄然發生變化


1 背景與動機


過去幾年,隨着 LLMs 和 VLMs 的飛速進步,我們見證了 AI 在自然語言處理、編程、圖像理解等領域的廣泛應用。而在科學研究這一關乎人類知識積累的關鍵場域,基於這些強大模型的智能體正悄然成為科研工作流的 「新型合作者」。


在早期,AI 在科學中的角色往往是 「分析器」—— 幫助分析數據、撰寫文獻、生成圖表。但隨着電腦智能體(Computer-Using Agents,也稱 CUA)的出現,這一角色正在發生根本性轉變。相比於傳統的語言模型助手,這類智能體能夠像人類一樣操作計算機,通過圖形界面點擊、拖拽、輸入命令,或是編寫程序完成計算任務,完成對真實科研軟件的自動化控制。這意味着,它們不再只是回答問題,而是在主動與你一起完成科學任務,成為具備 「執行能力」 的 AI 合作者。


1-1 從語言理解走向科研執行:全新的挑戰


在複雜的科研場景中,軟件工具的多樣性、任務流程的長周期、跨模態信息的交錯,令 「用 AI 真正完成一項科研任務」 遠比解答一個科學問題要困難得多。例如,模擬蛋白質結構需要調用生物建模軟件,查看星體軌跡要熟練操作天文模擬器,甚至還需要自動將結果整理進 LaTeX 文檔。實現這樣的能力,需要智能體具備:


  • 軟件操作能力:能夠使用圖形界面(GUI)與命令行(CLI)控制複雜科學工具;
  • 領域理解能力:理解任務背後的科學概念與背景知識;
  • 跨模態感知與規劃:在圖形界面、終端指令、科學數據之間進行有效推理和行動。


然而,現有的多模態智能體系統大多在網頁、電商、編程等通用任務上取得了一定進展,在科學領域卻還在蹣跚學步。一個很重要的原因在於:缺乏一個真實、系統化的科研環境與評估基準,來推動 agent 從 「會說會寫會敲代碼」 走向 「會做」。


1-2 科研任務中的空白:環境與評測的雙重缺失


儘管社區已提出多項 CUA 智能體評測(如 WebArena、OSWorld 等),但這些工作大多集中在日常場景和通用軟件上,其複雜性遠未觸及真實科研工作。而以 ScienceQA 和 SciCode 為代表的科學評測人任務,其任務方式依然停留在 QA 和靜態的代碼編寫上。在真實的科學探索過程中,軟件工具往往具有非標準 I/O 流、複雜界面邏輯、需要先配置再執行、多步操作才能完成目標 —— 這對智能體提出了前所未有的挑戰。因此,我們需要(1)一個可靠的環境讓 Agent 可以進行自主探索以及(2)一個多模態多領域的評測基準,來了解科學任務的自動化可以被完成到何種程度


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


在這樣的背景下,我們提出了 ScienceBoard:首個面向科學任務、真實交互、自動評估的多模態智能體評測環境,目標是從根本上推動 「會自動完成科學工作流的 AI」 的研究進展。


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


  • 論文題目:
  • ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
  • 項目地址:
  • https://qiushisun.github.io/ScienceBoard-Home/
  • 研究機構:香港大學,上海人工智能實驗室,復旦大學,北京大學,耶魯大學


2 ScienceBoard 基建:科研任務的可交互操作環境


2-1 多領域科研軟件集成


ScienceBoard 基於 Ubuntu 虛擬機搭建,內置了多個開源科研軟件,並對其進行了系統性的重構和改造,確保每個任務都能通過 CLI / GUI 雙通道進行交互。整個系統具備以下特點:


  • 多領域科研軟件集成:作為一個可擴展的環境,ScienceBoard 默認集成了 6 個科學領域的軟件,包括生物化學,天文模擬,地理信息系統等。
  • 雙模態操作接口:每個軟件均支持 GUI 和 CLI 控制,支持屏幕截圖(Screenshots)、可訪問性樹 (a11ytree)和 Set-of-Marks 等多模態輸入,允許 agent 靈活選擇交互方式。
  • 自動初始化機制:每個工作場景都配備初始化腳本、配置文件、輔助數據,確保 agent 可以從相同起點開始實驗,保證評測可復現性。
  • 可靠的自動評估機制:作者們編寫了一整套可擴展的任務評估函數,支持數值匹配、範圍區間、狀態對比等方式,對複雜科學操作實現執行級評估(execution-based evaluation)。


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


2-2 動作空間


為了讓 agent 能在不同任務中使用統一接口與動作表示,ScienceBoard 在先前 CUA/Coding Agents 工作的基礎上進行了擴展,為 Agents 定義了一個通用動作空間,涵蓋以下幾類操作:


  • GUI 操作動作:如 CLICK [x, y]、SCROLL [Δy]、TYPE [「text」] 等模擬人類操作
  • CLI 命令執行:在終端 / 軟件內部輸入代碼指令並獲取反饋
  • 其它類型調用
  • ocall_api:訪問外部 API 拓展 agent 能力
  • oanswer [「...」]:用於任務型 QA 作答
  • 流程控制動作:如 DONE, FAIL 等用於表明交互終止

  • 這樣的設計使得通過 LLM/VLM 構建的不同 agent 在 ScienceBoard 環境中都能通過結構化 API 實現通用交互能力,真正具備 「跨軟件、跨模態」 的通用執行接口。

3 ScienceBoard 評測集:高質量科研任務數據集


基於上述的多模態科學探索環境基建,ScienceBoard 構建了一個系統化、具挑戰性的科研任務集合,作為評估 AI 智能體科學能力的標準基準。該基準不僅覆蓋多種科研軟件,還充分考慮任務多樣性、複雜度和可執行性,目標是推動智能體從 「看得懂」 走向 「做得對」。


3-1 科學探索問題的構建


要評估一個智能體是否真正具備完成科學任務的能力,關鍵不僅在於環境,更在於任務本身是否足夠真實、足夠複雜、足夠可衡量。為此,ScienceBoard 採用了人工設計 + 程序驗證的混合標註流程:由學習過相關領域知識的人員基於真實軟件手冊構思任務目標,通過多輪交叉驗證確保指令清晰、操作合理,再配套自動初始化腳本與程序化評估函數,最終構成一個高度標準化、可復現、可自動評估的科研任務集合。


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


3-2 多維評測基準


ScienceBoard 的當前版本共收錄 169 個真實科研任務,橫跨 6 個領域(及其對應配套的軟件),任務類型涵蓋:基礎軟件與環境設置,科學模擬與計算,圖形繪製與空間可視化,數據查詢與結果解釋,科研文檔撰寫與整合,跨軟件複合工作流等等


科學領域

示例任務

生物建模(ChimeraX)

調用 AlphaFold 模型預測蛋白質結構

天文模擬(Celestia)

調整 Julian 日期並展示行星軌道

數學計算(KAlgebra)

繪製 Bernoulli 曲線並分析其極限點

地理建模(GrassGIS)

疊加地形圖層並計算邊界區域面積

定理證明(Lean 4)

使用歸納法構建形式化證明

科研寫作(TeXstudio)

撰寫實驗報告摘要並插入生成圖表


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


為系統性考察智能體的不同層級能力,任務被劃分為四類難度:


  • Easy(~54%):執行單步配置、簡單計算和編程、操作界面
  • Medium(~28%):涉及多步指令、邏輯推理或跨模態狀態跟蹤與記憶
  • Hard(~17%):需完成 Long-horizon 規劃、精細的 GUI 定位、多程序協作等
  • Open Problems:當前 SOTA 模型仍不可能完成的開放探索挑戰性任務


4 實驗與評估


我們在 ScienceBoard 評測基準上評估了當前代表性的(1)商業模型(2)開源模型(3)GUI 基座模型所構建的智能體的表現,結果揭示:即便是當今最強的多模態大模型,在真實科研工作流中也遠未成熟。


4-1 主要實驗


在整體任務成功率上:


1.GPT-4o 和 Claude 3.5 等商業大模型雖領先於開源模型,但平均成功率也僅為 15% 左右;


2. 開源的 InternVL3 和 Qwen2.5-VL 在部分任務上有超越商業模型的表現,但跨領域表現仍不穩定;


專門設計的 GUI Action Models 如 OS-ATLAS、UGround 等,雖然對接系統更輕量,卻在長任務、跨模態任務上明顯受限。


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


可以從實驗中看出:完成科學工作流的門檻遠高於 Web browsing 任務或移動 / 桌面端應用的交互。模型需要在視覺、結構化數據、複雜指令之間基於領域知識多輪推理、長程規劃。


更重要的是,我們在實驗中發現:許多失敗並非源於模型知識不足,而是執行策略不當。例如,模型可能正確理解了 「導出蛋白質結構圖」,卻因點擊順序錯誤而未能完成任務。


4-2 拆解規劃與動作


進一步的分析實驗還揭示了一個耐人尋味的趨勢:許多失敗的智能體其實 「知道要做什麼」,卻 「做不好」。以 GPT-4o 為代表的模型,在任務規划上展現了強大的理解能力,但在面對真實界面時,常因點擊不準(e.g., 無法點中正確的星球)、路徑偏差而執行失敗。這表明:當前模型在 「想清楚」 與 「做準確」 之間仍存在斷層


為進一步驗證這一現象,我們嘗試將規劃(Planning)與執行(Action)解耦,構建模塊化智能體系統:由 GPT-4o 負責生成高階計劃,再由各類開源 VLM 或 GUI Action Model 執行具體操作。


面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了 - 天天要聞


實驗結果顯示:這種模塊化設計顯著提升了成功率,尤其在界面複雜、操作鏈條長的科研軟件任務中,能夠更穩健地完成目標。


5 展望


ScienceBoard 的實驗表明,當前智能體的瓶頸不僅在操作層,更在於領域知識與通用 agent 能力的割裂。許多模型可以正確地執行點擊或輸入命令,但缺乏對科學任務背後知識的理解。因此,未來的關鍵方向在於:讓智能體真正 「理解科學」。這或許包括利用 Manual 與 Tutorial 等資源進行 「任務相關學習」,或構建可根據上下文調用外部知識的系統,


另一個值得關注的方向是智能體系統。我們的實驗顯示,即使是簡單的 「分工合作」 策略(如 GPT-4o 負責計劃、其他模型負責執行)也能帶來顯著收益。這為未來的 「科研 AI 團隊」 奠定了雛形:一個系統可能由具備強邏輯推理能力的 planner、擅長執行的 GUI 模型、掌握專業知識的領域專家模型組成。它們可按需組合,靈活適配科研生命周期中的不同階段,從數據分析、圖表生成到論文潤色,真正成為 「可編排、可插拔」 的科研夥伴。


更長遠地看,ScienceBoard 提出的框架也為實驗室層面的智能化探索打下了基礎。從虛擬科研助手,到物理實驗機械人,從 Coding / QA 模型到實驗助手,AI 科學家的未來,不再只是數字世界裏的概念,而是正在緩慢走向現實。


6 結束語


作為首個聚焦科學探索任務的多模態智能體評測框架。ScienceBoard 提供了一個真實可交互的科研環境,精心設計了具有代表性的科研任務,並配套程序化評估機制,系統性評估現有模型在科學任務上的表現。實驗發現,即便是當前最強的通用模型,在複雜科研工作流中的成功率仍顯著低於人類,儘管智能體自動化科學探索仍是一個長期目標,但本工作提供了一個可復現、可衡量、可擴展的起點,也為通向全自動化 AI 科學家之路點亮了第一盞燈。

科技分類資訊推薦

vivo X Fold5開啟預售!三防長續航輕辦公,雙機黨效率神器 - 天天要聞

vivo X Fold5開啟預售!三防長續航輕辦公,雙機黨效率神器

在摺疊屏的演進路徑上,vivo始終處於行業領先。全新的vivo X Fold5,作為vivo史上最強摺疊旗艦,不僅兼顧輕薄設計與性能配置,更在辦公協同、生態互通等方面帶來前所未有的體驗。對注重生產力的用戶而言,它不只是手機,更是口袋裡的輕辦
馬斯克:特斯拉 Optimus V3 人形機械人將集成 Grok 語音助手 - 天天要聞

馬斯克:特斯拉 Optimus V3 人形機械人將集成 Grok 語音助手

IT之家 6 月 26 日消息,特斯拉 CEO 馬斯克昨日於 X 平台發文,表示 Optimus V3 人形機械人將整合 Grok 語音助手,利用 AI 大模型進行語音交互。馬斯克首先表示,Optimus V3 人形機械人將會變得「」(該表情符號有對美食讚賞的意味),同時還稱讚了特斯拉 Optimus 團隊。後續,有網友評論道「Optimus 會運行 Gro
「禁帶無3C標及被召回充電寶乘機」新規出台,天山機場上百個不合規充電寶被攔截 - 天天要聞

「禁帶無3C標及被召回充電寶乘機」新規出台,天山機場上百個不合規充電寶被攔截

近日,羅馬仕三個型號超49.1萬個、安克七個型號超71萬個充電寶被召回一事,引發關注。同一型號的充電寶中,符合特定批次的才需召回,但多地出現「快遞拒收召回產品、飛機拒載非召回產品」的現象。6月26日上午,有網友發帖稱,在烏魯木齊天山國際機場,沒有國家3C認證的充電寶無法帶上飛機。截至發稿前,26日凌晨、上午在天...
南美摩配領軍者組團來訪,愛騎仕EJEAS開啟拉美市場新征程 - 天天要聞

南美摩配領軍者組團來訪,愛騎仕EJEAS開啟拉美市場新征程

近日,愛騎仕EJEAS迎來了一群遠道而來的尊貴客人——哥斯達黎加、烏拉圭、厄瓜多爾等拉丁美洲國家的摩配行業領軍企業代表。這些客戶不僅是南美洲摩配市場的領軍者,更是全球知名頭盔品牌LS2的合作夥伴。他們的到訪,不僅是對愛騎仕EJEAS產品實力
京東回應「外賣試點騎手幫扔垃圾」:自願參加,平台每單補貼0.5元,用戶可打賞 - 天天要聞

京東回應「外賣試點騎手幫扔垃圾」:自願參加,平台每單補貼0.5元,用戶可打賞

近日,有網傳消息稱,京東外賣試點騎手幫扔垃圾,引發關注。對此,京東一名工作人員告訴九派新聞,全職騎手「幫扔垃圾」當前僅停留在方案和小範圍測試階段,並未正式上線,平台將根據反饋對該服務進行評估和優化。據網傳截圖,在外賣群中,有人發佈信息稱,從6月19日起,在北京、宿遷首批試點外賣員幫用戶扔垃圾,後續又加...
即將實施!節卡機械人主導制定新國家標準 - 天天要聞

即將實施!節卡機械人主導制定新國家標準

近期,由節卡機械人作為牽頭起草單位,主導制定的國家標準GB/T 45579-2025《機械人智能化視覺評價方法及等級劃分》正式獲批發佈。該國標填補了全球範圍內機械人智能化標準領域的空白,為智能機械人質量提升和建設提供了有力指導,將推動中國機械人產業從「功能實現」向「智能分級」躍遷。 國家標準是我國標準體系中最高層級...
民航局出台充電寶乘機新規:多地機場已開始對充電寶進行安全檢查,國際航班暫無限制 - 天天要聞

民航局出台充電寶乘機新規:多地機場已開始對充電寶進行安全檢查,國際航班暫無限制

6月26日,中國民航局發佈緊急通知,自6月28日起禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。 民航局發佈充電寶攜帶緊急通知。圖/中國民用航空局官網截圖 該通知發佈後,有網友發帖稱,已經有機場開始對充電寶進行嚴格檢查,沒有3C標識的充電寶會被機場直接扣留,無法通過安檢帶上飛機。...
食光築夢 工創未來 - 天天要聞

食光築夢 工創未來

編者按:智能時代,建造何為?在數字化浪潮席捲全球的今天,建築業正經歷從「鋼筋水泥」到「數字孿生」的深刻變革。武漢輕工大學土木工程與建築學院應勢而為,開設智能建造專業,以「智」為擎、以「建」為基,培養引領行業未來的複合型人才。
中國電信雲總機(S版)定製招生通話「破局」方案,「絲滑」應對海量諮詢! - 天天要聞

中國電信雲總機(S版)定製招生通話「破局」方案,「絲滑」應對海量諮詢!

招生季的電話鈴聲此起彼伏,熱線被打爆、諮詢如潮湧——家長焦急詢問學區劃分、入學政策;考生急切查詢分數線、專業詳情;中小學忙於新生登記、政策解讀;考試中心更是被報名諮詢、考場安排等電話淹沒……傳統人工接聽模式捉襟見肘,效率欠佳、錯漏頻發、體驗打折,不僅消耗寶貴人力,更可能錯失優質生源。 如何讓每一次來電都成為...