面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了

分類：科技

瀏覽數：1771

2025-06-26

第一作者孫秋實是香港大學計算與數據科學學院博士生，碩士畢業於新加坡國立大學數據科學系。主要研究方向為 Computer-using agents 和 Code intelligence，在 NLP 和 ML 頂會 ACL，EMNLP，ICLR，COLM 等發表多篇論文。本文的 OS-Copilot 團隊此前已發布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列電腦智能體研究成果，被廣泛應用於學術界與產業實踐中。

用於輔助科學研究的大模型智能體，正在悄然發生變化

1 背景與動機

過去幾年，隨著 LLMs 和 VLMs 的飛速進步，我們見證了 AI 在自然語言處理、編程、圖像理解等領域的廣泛應用。而在科學研究這一關乎人類知識積累的關鍵場域，基於這些強大模型的智能體正悄然成為科研工作流的「新型合作者」。

在早期，AI 在科學中的角色往往是「分析器」—— 幫助分析數據、撰寫文獻、生成圖表。但隨著電腦智能體（Computer-Using Agents，也稱 CUA）的出現，這一角色正在發生根本性轉變。相比於傳統的語言模型助手，這類智能體能夠像人類一樣操作計算機，通過圖形界面點擊、拖拽、輸入命令，或是編寫程序完成計算任務，完成對真實科研軟體的自動化控制。這意味著，它們不再只是回答問題，而是在主動與你一起完成科學任務，成為具備「執行能力」的 AI 合作者。

1-1 從語言理解走向科研執行：全新的挑戰

在複雜的科研場景中，軟體工具的多樣性、任務流程的長周期、跨模態信息的交錯，令「用 AI 真正完成一項科研任務」遠比解答一個科學問題要困難得多。例如，模擬蛋白質結構需要調用生物建模軟體，查看星體軌跡要熟練操作天文模擬器，甚至還需要自動將結果整理進 LaTeX 文檔。實現這樣的能力，需要智能體具備：

軟體操作能力：能夠使用圖形界面（GUI）與命令行（CLI）控制複雜科學工具；
領域理解能力：理解任務背後的科學概念與背景知識；
跨模態感知與規劃：在圖形界面、終端指令、科學數據之間進行有效推理和行動。

然而，現有的多模態智能體系統大多在網頁、電商、編程等通用任務上取得了一定進展，在科學領域卻還在蹣跚學步。一個很重要的原因在於：缺乏一個真實、系統化的科研環境與評估基準，來推動 agent 從「會說會寫會敲代碼」走向「會做」。

1-2 科研任務中的空白：環境與評測的雙重缺失

儘管社區已提出多項 CUA 智能體評測（如 WebArena、OSWorld 等），但這些工作大多集中在日常場景和通用軟體上，其複雜性遠未觸及真實科研工作。而以 ScienceQA 和 SciCode 為代表的科學評測人任務，其任務方式依然停留在 QA 和靜態的代碼編寫上。在真實的科學探索過程中，軟體工具往往具有非標準 I/O 流、複雜界面邏輯、需要先配置再執行、多步操作才能完成目標 —— 這對智能體提出了前所未有的挑戰。因此，我們需要（1）一個可靠的環境讓 Agent 可以進行自主探索以及（2）一個多模態多領域的評測基準，來了解科學任務的自動化可以被完成到何種程度

在這樣的背景下，我們提出了 ScienceBoard：首個面向科學任務、真實交互、自動評估的多模態智能體評測環境，目標是從根本上推動「會自動完成科學工作流的 AI」的研究進展。

論文題目：
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
項目地址：
https://qiushisun.github.io/ScienceBoard-Home/
研究機構：香港大學，上海人工智慧實驗室，復旦大學，北京大學，耶魯大學

2 ScienceBoard 基建：科研任務的可交互操作環境

2-1 多領域科研軟體集成

ScienceBoard 基於 Ubuntu 虛擬機搭建，內置了多個開源科研軟體，並對其進行了系統性的重構和改造，確保每個任務都能通過 CLI / GUI 雙通道進行交互。整個系統具備以下特點：

多領域科研軟體集成：作為一個可擴展的環境，ScienceBoard 默認集成了 6 個科學領域的軟體，包括生物化學，天文模擬，地理信息系統等。
雙模態操作介面：每個軟體均支持 GUI 和 CLI 控制，支持屏幕截圖（Screenshots）、可訪問性樹（a11ytree）和 Set-of-Marks 等多模態輸入，允許 agent 靈活選擇交互方式。
自動初始化機制：每個工作場景都配備初始化腳本、配置文件、輔助數據，確保 agent 可以從相同起點開始實驗，保證評測可復現性。
可靠的自動評估機制：作者們編寫了一整套可擴展的任務評估函數，支持數值匹配、範圍區間、狀態對比等方式，對複雜科學操作實現執行級評估（execution-based evaluation）。

2-2 動作空間

為了讓 agent 能在不同任務中使用統一介面與動作表示，ScienceBoard 在先前 CUA/Coding Agents 工作的基礎上進行了擴展，為 Agents 定義了一個通用動作空間，涵蓋以下幾類操作：

GUI 操作動作：如 CLICK [x, y]、SCROLL [Δy]、TYPE [「text」] 等模擬人類操作
CLI 命令執行：在終端 / 軟體內部輸入代碼指令並獲取反饋
其它類型調用：
ocall_api：訪問外部 API 拓展 agent 能力
oanswer [「...」]：用於任務型 QA 作答
流程式控制制動作：如 DONE, FAIL 等用於表明交互終止
這樣的設計使得通過 LLM/VLM 構建的不同 agent 在 ScienceBoard 環境中都能通過結構化 API 實現通用交互能力，真正具備「跨軟體、跨模態」的通用執行介面。

3 ScienceBoard 評測集：高質量科研任務數據集

基於上述的多模態科學探索環境基建，ScienceBoard 構建了一個系統化、具挑戰性的科研任務集合，作為評估 AI 智能體科學能力的標準基準。該基準不僅覆蓋多種科研軟體，還充分考慮任務多樣性、複雜度和可執行性，目標是推動智能體從「看得懂」走向「做得對」。

3-1 科學探索問題的構建

要評估一個智能體是否真正具備完成科學任務的能力，關鍵不僅在於環境，更在於任務本身是否足夠真實、足夠複雜、足夠可衡量。為此，ScienceBoard 採用了人工設計 + 程序驗證的混合標註流程：由學習過相關領域知識的人員基於真實軟體手冊構思任務目標，通過多輪交叉驗證確保指令清晰、操作合理，再配套自動初始化腳本與程序化評估函數，最終構成一個高度標準化、可復現、可自動評估的科研任務集合。

3-2 多維評測基準

ScienceBoard 的當前版本共收錄 169 個真實科研任務，橫跨 6 個領域（及其對應配套的軟體），任務類型涵蓋：基礎軟體與環境設置，科學模擬與計算，圖形繪製與空間可視化，數據查詢與結果解釋，科研文檔撰寫與整合，跨軟體複合工作流等等

科學領域	示例任務
生物建模(ChimeraX)	調用 AlphaFold 模型預測蛋白質結構
天文模擬(Celestia)	調整 Julian 日期並展示行星軌道
數學計算(KAlgebra)	繪製 Bernoulli 曲線並分析其極限點
地理建模(GrassGIS)	疊加地形圖層並計算邊界區域面積
定理證明(Lean 4)	使用歸納法構建形式化證明
科研寫作(TeXstudio)	撰寫實驗報告摘要並插入生成圖表

為系統性考察智能體的不同層級能力，任務被劃分為四類難度：

Easy（~54%）：執行單步配置、簡單計算和編程、操作界面
Medium（~28%）：涉及多步指令、邏輯推理或跨模態狀態跟蹤與記憶
Hard（~17%）：需完成 Long-horizon 規劃、精細的 GUI 定位、多程序協作等
Open Problems：當前 SOTA 模型仍不可能完成的開放探索挑戰性任務

4 實驗與評估

我們在 ScienceBoard 評測基準上評估了當前代表性的（1）商業模型（2）開源模型（3）GUI 基座模型所構建的智能體的表現，結果揭示：即便是當今最強的多模態大模型，在真實科研工作流中也遠未成熟。

4-1 主要實驗

在整體任務成功率上：

1.GPT-4o 和 Claude 3.5 等商業大模型雖領先於開源模型，但平均成功率也僅為 15% 左右；

2. 開源的 InternVL3 和 Qwen2.5-VL 在部分任務上有超越商業模型的表現，但跨領域表現仍不穩定；

專門設計的 GUI Action Models 如 OS-ATLAS、UGround 等，雖然對接系統更輕量，卻在長任務、跨模態任務上明顯受限。

可以從實驗中看出：完成科學工作流的門檻遠高於 Web browsing 任務或移動 / 桌面端應用的交互。模型需要在視覺、結構化數據、複雜指令之間基於領域知識多輪推理、長程規劃。

更重要的是，我們在實驗中發現：許多失敗並非源於模型知識不足，而是執行策略不當。例如，模型可能正確理解了「導出蛋白質結構圖」，卻因點擊順序錯誤而未能完成任務。

4-2 拆解規劃與動作

進一步的分析實驗還揭示了一個耐人尋味的趨勢：許多失敗的智能體其實「知道要做什麼」，卻「做不好」。以 GPT-4o 為代表的模型，在任務規划上展現了強大的理解能力，但在面對真實界面時，常因點擊不準（e.g., 無法點中正確的星球）、路徑偏差而執行失敗。這表明：當前模型在「想清楚」與「做準確」之間仍存在斷層。

為進一步驗證這一現象，我們嘗試將規劃（Planning）與執行（Action）解耦，構建模塊化智能體系統：由 GPT-4o 負責生成高階計劃，再由各類開源 VLM 或 GUI Action Model 執行具體操作。

實驗結果顯示：這種模塊化設計顯著提升了成功率，尤其在界面複雜、操作鏈條長的科研軟體任務中，能夠更穩健地完成目標。

5 展望

ScienceBoard 的實驗表明，當前智能體的瓶頸不僅在操作層，更在於領域知識與通用 agent 能力的割裂。許多模型可以正確地執行點擊或輸入命令，但缺乏對科學任務背後知識的理解。因此，未來的關鍵方向在於：讓智能體真正「理解科學」。這或許包括利用 Manual 與 Tutorial 等資源進行「任務相關學習」，或構建可根據上下文調用外部知識的系統，

另一個值得關注的方向是智能體系統。我們的實驗顯示，即使是簡單的「分工合作」策略（如 GPT-4o 負責計劃、其他模型負責執行）也能帶來顯著收益。這為未來的「科研 AI 團隊」奠定了雛形：一個系統可能由具備強邏輯推理能力的 planner、擅長執行的 GUI 模型、掌握專業知識的領域專家模型組成。它們可按需組合，靈活適配科研生命周期中的不同階段，從數據分析、圖表生成到論文潤色，真正成為「可編排、可插拔」的科研夥伴。

更長遠地看，ScienceBoard 提出的框架也為實驗室層面的智能化探索打下了基礎。從虛擬科研助手，到物理實驗機器人，從 Coding / QA 模型到實驗助手，AI 科學家的未來，不再只是數字世界裡的概念，而是正在緩慢走向現實。

6 結束語

作為首個聚焦科學探索任務的多模態智能體評測框架。ScienceBoard 提供了一個真實可交互的科研環境，精心設計了具有代表性的科研任務，並配套程序化評估機制，系統性評估現有模型在科學任務上的表現。實驗發現，即便是當前最強的通用模型，在複雜科研工作流中的成功率仍顯著低於人類，儘管智能體自動化科學探索仍是一個長期目標，但本工作提供了一個可復現、可衡量、可擴展的起點，也為通向全自動化 AI 科學家之路點亮了第一盞燈。

科技分類資訊推薦