北大伯克利聯手「拷問」大模型：最強Agent也才40分！新基準專治「不聽話」的AI分析師

2025年06月10日14:40:34 科學 9673

北大鄧小鐵課題組投稿
量子位 | 公眾號 qbitai

給大模型當老師，讓它一步步按你的想法做數據分析，有多難？

結果是，連claude-3.7和gemini-2.5 pro這樣的頂尖選手，都開始「不聽話」了。

在一個全新的測試基準中，它們面對多輪、不斷演進的指令，最終的任務成功率最高僅有40%。

這項名為ida-bench的新基準，就是為了模擬真實世界中這種「邊想邊改」的分析場景而生。

它不再是給模型一道題，讓它一口氣算完；而是模擬一位真實的數據分析師，在對話中不斷給出新指令，考察agent在多輪交互中的真實能力。

可以說，專治各種「自作主張」和「一意孤行」的ai。

值得一提的是，這項工作由一支星光熠熠的團隊打造，彙集了北京大學與加州大學伯克利分校的頂尖學者，其中不乏機器學習泰斗michael i. jordan教授，仿真科學領域專家鄭澤宇 (zeyu zheng) 副教授，以及acm/ieee fellow鄧小鐵 (xiaotie deng) 教授的身影。

「不聽話」的ai，問題出在哪？

目前，我們看到的很多大模型數據分析工具，比如openai、gemini和claude的網頁應用，能力已然非常強大。

但現有的評估基準，大多側重於單輪互動：用戶給出一個明確的、預設好的任務，然後看agent能否成功執行。
可現實世界的數據分析，遠非如此。

真實的數據分析師，工作流程是迭代式、探索性的。他們會先查看數據分佈，再決定如何處理異常值；會根據初步結果，調整後續的分析策略。這些決策充滿了基於領域知識的「主觀性」，指令也是一步步演進的。

現有基準恰恰忽略了這種動態交互過程，因此無法全面評估agent在真實協作場景下的可靠性。

ida-bench：給ai一場真實的「隨堂測驗」

為了解決這一痛點，ida-bench應運而生。它旨在忠實地反映真實數據分析的主觀性和交互性特徵。

整個測試框架包含四大核心組件：

指令材料 (instruction materials)：從真實的、複雜的kaggle數據分析項目（python notebooks）中提取，包含背景知識、分析目標和專家的「主觀洞察」。
模擬用戶 (simulated user)：由一個大模型扮演，它會參照指令材料，像真人一樣逐步向agent下達指令，甚至會提出模糊或不斷變化的要求。
agent：即被測試的大模型，它的任務是嚴格遵循「用戶」的指令，通過編寫和執行代碼來完成任務。
沙盒環境 (sandbox environment)：一個安全隔離的環境，agent可以在其中執行代碼、訪問數據，並像在jupyter中一樣保持上下文。

△圖1：(左) ida-bench的測試場景，(右) ida-bench中的任務軌跡示例

為了確保任務的真實性和時效性，防止數據污染，ida-bench的構建流程完全自動化。它能持續從kaggle上發佈的最新項目中提取任務，經過篩選、預處理和人工檢查後，生成新的測試用例。

△圖2: ida-bench的自動化構建流程

agent慘遭滑鐵盧，最高分僅40

在這樣一套「嚴刑拷打」下，各大模型紛紛現出原形。

初步評估結果顯示，即便是最先進的大模型，成功率也不足50%。

具體來看，gemini-2.5-pro、openai o4-mini和claude-3.7-sonnet-thinking表現位列第一梯隊，但其「基準達成率」（即結果達到或超過人類基準）也僅為40%。

而deepseek系列中，作為指令模型的deepseek-v3（24%）表現明顯優於其「思考型」模型deepseek-r1（12%），這揭示了一個核心挑戰：在遵循指令和自主推理之間取得平衡，對當前agent來說非常困難。

△表1: 各大模型在ida-bench上的表現

此外，agent們在任務中還會犯下各種低級錯誤，導致提交結果無效。其中最主要的原因是根本沒有生成提交文件，這往往源於模型的「幻覺」。

「自信」的claude vs 「謹慎」的gemini

深入分析失敗案例，研究團隊發現不同模型展現出了迥異的「性格」。

claude-3.7和deepseek-r1表現得像個「過度自信」的實習生。

它們不怎麼遵循用戶的具體指令，而是主動推進分析流程，結果常常因為「自作主張」而錯過了關鍵步驟和信息。比如，用戶建議用一種新方法改進模型，claude-3.7不等嘗試就直接否定，並提交了之前效果較差的結果。

相比之下，gemini-2.5-pro則像一個「過度謹慎」的助理。它每走一步都要反覆向用戶尋求確認，有時一個簡單的數據清洗操作能來回溝通30輪，最終因超過回合數限制而任務失敗。

幻覺或誇大：許多agent會聲稱執行了並未進行的操作，比如號稱「優化」了參數，但實際只是隨機設置；更有甚者，憑空捏造從未生成的代碼和不存在的數字結果。
格式錯誤：提交文件的列名大小寫弄反，或數據類型不對（如在二分類任務中，要求提交標籤「0」或「1」，模型卻提交了標籤為「1」的概率），都是常見的低級錯誤。
固守首次嘗試：一些agent在初期會做出一個簡單粗暴的嘗試（比如在預測任務中，模型在初期會直接用訓練集的中位數作為預測值），然後就「固執己見」，在後續交互中不再根據新指令開發更複雜的模型。
級聯錯誤：當一個代碼塊中途執行失敗時，agent有時會「假裝」它成功了，導致後續代碼塊因為引用不存在的變量而出錯，引發連鎖反應。

這些發現凸顯了當前llm agent在真正成為可靠數據分析助手之前，仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:https://arxiv.org/abs/2505.18223

項目主頁:https://github.com/lhydave/ida-bench

科學

月球蓋房子有望就地取材 - 天天要聞

月球蓋房子有望就地取材

‍‍‍‌‍‍‌在月球蓋房子，要從地球上運建材嗎？長期留駐月球，飲用水也要地球「發貨」、飛船「快遞」嗎？「不用！」活力中國調研行採訪團走進位於安徽合肥的地球深空探測實驗室時，記者從科研人員口中聽到了令人振奮的消息。月壤3D打印系統設備。

07月02日 1947

活力中國調研行｜「上新」！合肥繪製「未來產業圖譜」 - 天天要聞

活力中國調研行｜「上新」！合肥繪製「未來產業圖譜」

新華社合肥7月1日電題：「上新」！合肥繪製「未來產業圖譜」新華社記者郭晨、班娟娟、姚遠在安徽省合肥國家高新技術產業開發區，有一條孕育了數十家量子科技企業的「量子大街」。過去的10多年裡，方圓幾公里內，一個擁有中電信量子、本源量子、國儀量子等代表性企業的量子產業集群在此崛起，成為全國乃至全球領先的量子科...

07月02日 3147

中國人民大學－西湖大學未來人類聯合研究院成立 - 天天要聞

中國人民大學－西湖大學未來人類聯合研究院成立

7月1日，北京青年報記者從中國人民大學獲悉，中國人民大學與西湖大學攜手成立「中國人民大學－西湖大學未來人類聯合研究院」，並面向全球發佈「未來人類十大議題」，聚焦人類文明演進的重大挑戰與突破方向，以中....

07月01日 5080

巨子生物承認檢測方法有局限，華熙生物發文暗指其「偽科學」 - 天天要聞

巨子生物承認檢測方法有局限，華熙生物發文暗指其「偽科學」

6月30日，華熙生物在微信公眾號上發佈文章《推動行業進入以檢測結果為宣傳依據的時代》，意有所指地表示，主張免受科學檢驗的必定屬於偽科學。文章直指，在重組膠原蛋白的測量問題中，聲稱沒有統一的檢測方法就無法準確測量，就是一種典型的「免受檢驗策略」，試圖讓自己的主張免受科學檢驗和公共監管。巧合的是，在此之前...

07月01日 6242

CMJ | 上海六院周健教授團隊：通過機器學習鑒定糖代謝紊亂的新型生物標誌物 - 天天要聞

CMJ | 上海六院周健教授團隊：通過機器學習鑒定糖代謝紊亂的新型生物標誌物

點擊「藍字」關注我們2型糖尿病是我國主要慢性代謝性疾病之一，其主要臨床特徵包括高血糖、胰島素抵抗和肝糖輸出增加等。因此，迫切需要進一步鑒定與糖代謝穩態調節密切相關的新型生物標誌物，從而為建立疾病預警體系和個體化診療方案提供新的理論依據。近日，上海交通大學醫學院附屬第六人民醫院內分泌代謝科周健團隊、代...

07月01日 9706

「原子級製造」：中美科技競爭最核心、最前沿的戰場 - 天天要聞

「原子級製造」：中美科技競爭最核心、最前沿的戰場

一場決定21世紀全球技術、經濟乃至安全格局的終極競賽，正在原子尺度上悄無聲息地展開。這便是「原子級製造」（Atomic-Level Manufacturing, ALM）——一種允許人類以單個原子為單位，精確構建和操控物質的顛覆性生產範式。

07月01日 1064

我們就像是衛星，繞着各自的太陽旋轉 | 書評·亂花迷眼 - 天天要聞

我們就像是衛星，繞着各自的太陽旋轉 | 書評·亂花迷眼

《在家》是德國當代作家尤迪特·海爾曼的一部小說。小說的主人公在人至中年之後，離開了丈夫和女兒，來到沿海的鄉下，幫助哥哥打理那裡的一間酒吧。她認識了新的朋友，開始了新的生活，....

07月01日 4953

中國科學院院士鄭海榮：腦機接口突破性進展將在醫療康復領域 - 天天要聞

中國科學院院士鄭海榮：腦機接口突破性進展將在醫療康復領域

6月30日，中國科學院院士、南京大學副校長鄭海榮，在深圳創新發展研究院等主辦的科技創新院士報告廳上，圍繞AI時代的生物智能前沿——「腦機接口與生物智能」做了分享，他認為腦機接口將引領醫療新變革，是解決未來重大醫療需求的關鍵路徑，腦機接口的突破性進展將出現在醫療康復領域。鄭海榮以科幻電影《阿凡達》中通過意...

07月01日 4779

機場的大敵，可能不是飛鳥，國家該管管了！ - 天天要聞

機場的大敵，可能不是飛鳥，國家該管管了！

如今，無人機的身影隨處可見，不管是用於拍攝壯麗風景，還是助力農業噴洒農藥，它都給我們的生活帶來了諸多便利。可誰能想到，這小小的無人機，一旦不受控制地亂飛，就會成為機場安全的巨大威脅。 ....

07月01日 7462

【職引未來】青春無悔到祖國和人民最需要的地方發光發熱 - 天天要聞

【職引未來】青春無悔到祖國和人民最需要的地方發光發熱

【職引未來】當前，不少高校畢業生選擇到基層去、到西部去，到祖國和人民最需要的地方去建功立業。到這些地方就業，青年學子將面臨哪些機遇和挑戰？又將收穫怎樣的人生體驗？日前，北京師範大學黨委學生工作部職業發展與就業指導中心主任張新穎在接受光明網記者專訪時表示，在祖國最需要的地方奮鬥，青年學子收穫的不僅是...

07月01日 8603