北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師

2025年06月10日14:40:34 科學 9673

北大鄧小鐵課題組 投稿

量子位 | 公眾號 qbitai

給大模型當老師,讓它一步步按你的想法做數據分析,有多難?

結果是,連claude-3.7和gemini-2.5 pro這樣的頂尖選手,都開始「不聽話」了。

在一個全新的測試基準中,它們面對多輪、不斷演進的指令,最終的任務成功率最高僅有40%。

這項名為ida-bench的新基準,就是為了模擬真實世界中這種「邊想邊改」的分析場景而生。

北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師 - 天天要聞

它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數據分析師,在對話中不斷給出新指令,考察agent在多輪交互中的真實能力。

可以說,專治各種「自作主張」和「一意孤行」的ai。

值得一提的是,這項工作由一支星光熠熠的團隊打造,彙集了北京大學加州大學伯克利分校的頂尖學者,其中不乏機器學習泰斗michael i. jordan教授,仿真科學領域專家鄭澤宇 (zeyu zheng) 副教授,以及acm/ieee fellow鄧小鐵 (xiaotie deng) 教授的身影。

「不聽話」的ai,問題出在哪?

目前,我們看到的很多大模型數據分析工具,比如openai、gemini和claude的網頁應用,能力已然非常強大。

但現有的評估基準,大多側重於單輪互動:用戶給出一個明確的、預設好的任務,然後看agent能否成功執行。
可現實世界的數據分析,遠非如此。

真實的數據分析師,工作流程是迭代式探索性的。他們會先查看數據分佈,再決定如何處理異常值;會根據初步結果,調整後續的分析策略。這些決策充滿了基於領域知識的「主觀性」,指令也是一步步演進的。

現有基準恰恰忽略了這種動態交互過程,因此無法全面評估agent在真實協作場景下的可靠性。

ida-bench:給ai一場真實的「隨堂測驗」

為了解決這一痛點,ida-bench應運而生。它旨在忠實地反映真實數據分析的主觀性和交互性特徵。

整個測試框架包含四大核心組件:

  • 指令材料 (instruction materials):從真實的、複雜的kaggle數據分析項目(python notebooks)中提取,包含背景知識、分析目標和專家的「主觀洞察」。

  • 模擬用戶 (simulated user):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向agent下達指令,甚至會提出模糊或不斷變化的要求。

  • agent:即被測試的大模型,它的任務是嚴格遵循「用戶」的指令,通過編寫和執行代碼來完成任務。

  • 沙盒環境 (sandbox environment):一個安全隔離的環境,agent可以在其中執行代碼、訪問數據,並像在jupyter中一樣保持上下文。

北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師 - 天天要聞△圖1:(左) ida-bench的測試場景 ,(右) ida-bench中的任務軌跡示例

為了確保任務的真實性和時效性,防止數據污染,ida-bench的構建流程完全自動化。它能持續從kaggle上發佈的最新項目中提取任務,經過篩選、預處理和人工檢查後,生成新的測試用例。

北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師 - 天天要聞△圖2: ida-bench的自動化構建流程

agent慘遭滑鐵盧,最高分僅40

在這樣一套「嚴刑拷打」下,各大模型紛紛現出原形。

初步評估結果顯示,即便是最先進的大模型,成功率也不足50%。

具體來看,gemini-2.5-pro、openai o4-mini和claude-3.7-sonnet-thinking表現位列第一梯隊,但其「基準達成率」(即結果達到或超過人類基準)也僅為40%。

deepseek系列中,作為指令模型的deepseek-v3(24%)表現明顯優於其「思考型」模型deepseek-r1(12%),這揭示了一個核心挑戰:在遵循指令和自主推理之間取得平衡,對當前agent來說非常困難。

北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師 - 天天要聞△表1: 各大模型在ida-bench上的表現

此外,agent們在任務中還會犯下各種低級錯誤,導致提交結果無效。其中最主要的原因是根本沒有生成提交文件,這往往源於模型的「幻覺」。

北大伯克利聯手「拷問」大模型:最強Agent也才40分!新基準專治「不聽話」的AI分析師 - 天天要聞

「自信」的claude vs 「謹慎」的gemini

深入分析失敗案例,研究團隊發現不同模型展現出了迥異的「性格」。

claude-3.7deepseek-r1表現得像個「過度自信」的實習生。

它們不怎麼遵循用戶的具體指令,而是主動推進分析流程,結果常常因為「自作主張」而錯過了關鍵步驟和信息。比如,用戶建議用一種新方法改進模型,claude-3.7不等嘗試就直接否定,並提交了之前效果較差的結果。

相比之下,gemini-2.5-pro則像一個「過度謹慎」的助理。它每走一步都要反覆向用戶尋求確認,有時一個簡單的數據清洗操作能來回溝通30輪,最終因超過回合數限制而任務失敗。

  • 幻覺或誇大:許多agent會聲稱執行了並未進行的操作,比如號稱「優化」了參數,但實際只是隨機設置;更有甚者,憑空捏造從未生成的代碼和不存在的數字結果。

  • 格式錯誤:提交文件的列名大小寫弄反,或數據類型不對(如在二分類任務中,要求提交標籤「0」或「1」,模型卻提交了標籤為「1」的概率),都是常見的低級錯誤。

  • 固守首次嘗試:一些agent在初期會做出一個簡單粗暴的嘗試(比如在預測任務中,模型在初期會直接用訓練集的中位數作為預測值),然後就「固執己見」,在後續交互中不再根據新指令開發更複雜的模型。

  • 級聯錯誤:當一個代碼塊中途執行失敗時,agent有時會「假裝」它成功了,導致後續代碼塊因為引用不存在的變量而出錯,引發連鎖反應。

這些發現凸顯了當前llm agent在真正成為可靠數據分析助手之前,仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:https://arxiv.org/abs/2505.18223

項目主頁:https://github.com/lhydave/ida-bench

科學分類資訊推薦

人民日報關注吉林:茶思造夢 科技報國 - 天天要聞

人民日報關注吉林:茶思造夢 科技報國

本報記者 汪志球 鄭智文吉林大學地質宮內,「黃大年茶思屋」一如當年模樣:依舊是熟悉的「造夢空間」,茶香、咖啡香和自由的思考瀰漫交織,科研人員於此聊當下、談未來,思緒飛揚,創意激蕩。
來自科學家的反常識建議:越是枯燥無聊的工作,越要分心做 - 天天要聞

來自科學家的反常識建議:越是枯燥無聊的工作,越要分心做

與其無休止地試圖讓枯燥的任務變得不那麼無聊,有時將這些活動與其他更需注意力的任務結合起來,可能會更有效。為什麼這樣做會有效呢?從根本上說,是因為大腦渴望有事可做。在做低注意力任務的同時,投入到另一項活動中,就可以佔用多餘的注意力,減少無聊感,從而提高堅持性。我們都希望每天能做些有意思的事,但現實是,...
市科技局開展全國科技活動周系列科普宣傳活動 - 天天要聞

市科技局開展全國科技活動周系列科普宣傳活動

近期,市科技局聯合市委宣傳部、市科協等單位,圍繞「矢志創新發展,建設科技強國」主題,組織開展面向社會公眾、青少年群體的第二十五個全國科技活動周系列活動,廣泛普及科學知識,弘揚科學精神,激發創新活力,營造「熱愛科學、崇尚創新」的濃厚氛圍。無人機+生物多樣性科普講堂精彩紛呈為激發青少年好奇心、想像力、探...
辨證施治,更好發揮中醫藥作用(講述·弘揚科學家精神) - 天天要聞

辨證施治,更好發揮中醫藥作用(講述·弘揚科學家精神)

健康時報記者 林 敬 王振雅 田金洲(右二)為患者診脈。 林 敬攝 人物小傳 田金洲,1956年生,湖北天門人,中國工程院院士,北京中醫藥大學東直門醫院腦病科主任醫師、教授。致力於用中醫藥防治阿爾茨海默病及其他神經系統疾病研究,將最新的阿爾茨海默病診療技術與我國古代的臨床經驗、當今的應用場景緊密結合,創建阿爾茨海...
聽中國科研團隊成員詳解「全手觸覺機械人仿生手」 - 天天要聞

聽中國科研團隊成員詳解「全手觸覺機械人仿生手」

【環球時報報道 記者 谷業凱】近日,由北京大學、北京通用人工智能研究院等單位組成的聯合科研團隊,開發出全球首個同時具備全手高分辨率觸覺感知和完整運動能力的機械人手系統——「基於全手觸覺的機械人仿生手」(簡稱F-TAC Hand)。相關成果北京時間6月9日在國際頂級學術期刊《自然·機器智能》上發表。研製「全手觸覺機...