ICML2025Spotlight|多模態大模型暴露短板?

2025年05月20日21:12:04 科技 1507



「三個點電荷 + Q、-2Q 和 + 3Q 等距放置,哪個向量最能描述作用在 + Q 電荷上的凈電力方向?」


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞


在解這道題時,我們可以通過繪製受力分析草圖輕鬆解決。但即使是先進的多模態大語言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原則時,錯誤地判斷斥力的方向(例如,錯誤地將 + 3Q 對 + Q 的斥力方向判斷為右下方而非正確的左上方)。


這個看似簡單的物理問題,卻暴露了多模態大模型一個「致命缺陷」: 當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的複雜多模態推理 !一項最新研究推出的 EMMA 基準測試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。


目前該研究已被 ICML 2025 接收為 spotlight,代碼數據已全部開源


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • 標題: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

  • 論文鏈接: https://www.arxiv.org/pdf/2501.05444

  • 項目主頁:https://emma-benchmark.github.io/

  • 代碼倉庫: https://github.com/EMMA-Bench/EMMA

  • 數據集: https://huggingface.co/datasets/luckychao/EMMA

  • 單位: 電子科技大學中山大學華盛頓大學微軟香港中文大學


目前已有多個模型 / 方法在 EMMA 上驗證其多模態推理能力,研究發現: 即使最先進的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落後人類專家超 20%


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞

研究者們還邀請了人類專家完成題目,並對比了人類專家與 AI 模型的解題過程。可以看出人類專家在面對 EMMA 中的複雜問題時,傾向於藉助簡潔的手繪草圖進行「視覺化思考和空間模擬」,高效地找到解題路徑。與之形成鮮明對比的是,模型(如 o3)則依賴於詳盡的、結構化的文本步驟進行推理。這種差異凸顯了當前 MLLMs 在處理多模態信息時,更偏向於運用其強大的語言邏輯能力進行處理,而較少展現出類人的、以視覺為核心的直觀洞察和靈活高效的解題策略。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞

EMMA:深度考量 MLLMs 的多模態推理極限


將文本與圖像信息有機結合、協同進行推理,是人類智能的一項核心能力。然而,多模態大語言模型是否真正具備這種深層次、非割裂的多模態推理能力,至今仍缺乏系統而深入的研究。當前的主流基準測試往往偏重於「文本主導」的推理過程,或僅需利用「淺層的視覺感知」而非「視覺推理」便可解決問題,難以全面衡量模型在複雜任務中對視覺與語言信息的整合能力,因而無法有效評估其真實的多模態理解與推理水平。


為應對這一挑戰,研究者們提出了 EMMA—— 一個專為評估 MLLMs 在數學、物理、化學和代碼這四大領域進行原生多模態推理而設計的增強型基準,具體如下圖所示。EMMA 中的任務要求高級的跨模態推理,這些問題無法通過在單一模態中獨立思考來解決,從而為 MLLMs 的推理能力提供了更嚴苛、更全面的「試金石」。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞

EMMA 不僅僅是一個新的評估數據集,它是一套精心設計的「考題」,旨在全面考察 MLLMs 在以下方面的能力:


  • 真正的多模態融合 : EMMA 的首要標準是考驗模型是否能進行「真」多模態推理。這意味著問題必須同時深度依賴視覺信息(如圖表、示意圖、化學結構、代碼可視化)和文本信息(問題描述、邏輯條件)才能解決,從而檢驗模型在不同模態間無縫切換與深度整合的能力。

  • 跨學科的嚴峻挑戰 : 為了全面評估模型的泛化能力,EMMA 覆蓋了數學、物理、化學和代碼這四大核心科學與工程領域。這些領域的問題本質上要求精確的邏輯演繹和對特定領域知識的運用,為 MLLMs 提供了複雜且多樣化的推理場景。

  • 細粒度能力診斷與性能極限探索 : EMMA 不滿足於籠統的評分,而是為每個學科下的具體技能(例如,數學中的「2D 變換」、「3D 空間模擬」,物理中的「受力分析」、「場模擬」等,如上圖所示)提供了細緻的分類。這種設計使得研究者能夠精確分析模型在特定推理環節上的優勢與不足,繪製出模型能力的「細粒度畫像」。


該研究具有以下幾個主要發現


  • 整體表現堪憂 : 即使最先進的模型(如 Gemini-2.5-pro-exp-03-25) ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落後人類專家超 20%。無論採用何種提示策略或計算擴展方式,模型都未能有效彌合與人類之間的差距。

  • 思維鏈 (CoT) 並非萬能葯 : 儘管思維鏈提示在文本推理任務中表現出色,但在 EMMA 的多模態挑戰下,其對模型性能的提升有限,甚至對某些開源模型產生負面影響。

  • 測試時計算擴展效果不彰 : 即使通過增加候選答案數量(如多數、Best-of-N,錦標賽策略)等方式擴展測試時的計算資源,也未能有效彌補模型在根本視覺推理能力上的缺陷。

  • 視覺推理是核心瓶頸 : 錯誤分析表明,MLLMs 常常在需要精確空間模擬、多跳視覺推理以及視覺與文本信息整合的任務上失敗,尤其是在視覺輔助能極大簡化解題路徑的問題上。這進一步強調了需要開發新型視覺與語言深度融合的機制。


數據集構建:嚴謹篩選與細粒度剖析


EMMA 的構建過程經過精心設計,旨在確保其能夠有效評估深層多模態推理能力。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞

  • 數據來源與篩選 : EMMA 包含從現有基準(如 MathVision, MathVista, OlympiadBench, MMMU 等)中通過嚴格篩選流程(如上圖所示,過濾掉僅憑文本或「文本 + 圖像描述」就能解決的問題)獲得的 992 個問題,並與相關領域專家合作手動構建了 1,796 個全新問題,總計 2,788 個問題。


  • 領域覆蓋與技能評估


  • 數學 : 包含 2D 變換、3D 空間模擬、路徑追蹤、多跳視覺對象計數、模式推理等。

  • 物理 : 包含 3D 場模擬、圖表推理、路徑追蹤、多跳視覺推理等。

  • 化學 : 包含基於知識的計數、結構識別、反應模擬等。

  • 代碼 : 包含圖表選擇代碼、代碼選擇圖表、基於目標圖像修改代碼(提供或不提供原始圖像)等任務,側重數據可視化。


  • 精細化分類 : 每個問題都被賦予了細緻的技能標籤,以便對模型的各項能力進行深入分析。


  • 人工驗證與質量控制 : 所有問題,特別是新構建的問題和分類標籤,都經過領域專家的嚴格審查或創建,以確保問題的質量、相關性以及對多模態推理能力的真實考察。


最終得到 EMMA 數據集的關鍵統計信息及數據分布如下:


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞

實驗與結果:SOTA 模型面臨嚴峻考驗


研究團隊在 EMMA 上評估了 10 個 SOTA MLLMs,包括開源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和閉源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • 普遍表現不佳 : 所有模型在 EMMA 上的表現均不理想,與人類專家存在巨大差距,凸顯了當前模型在解決複雜多模態推理任務上的局限性。


  • CoT 效果分化 : 對於閉源模型,CoT 提示通常能帶來性能提升;但對於開源模型,CoT 反而可能導致性能下降,這可能與模型未能有效利用語言輔助多模態推理有關。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • 測試時計算擴展難補短板 : 儘管採用多數、Best-of-N、錦標賽選擇等策略增加計算量能在一定程度上提升性能,但提升幅度有限,遠不足以彌合與人類水平的差距。這表明僅僅增加文本 CoT 的候選數量,難以彌補模型在視覺推理步驟上的根本性不足。


錯誤分析:視覺推理是核心癥結


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • 錯誤類型分析 : 對 o1 模型 在 EMMA-mini 的數學和代碼部分的錯誤分析顯示,視覺推理錯誤佔比最高(52.83%),其次是感知錯誤(30.19%),而文本推理錯誤和知識缺乏錯誤佔比較小。這進一步證明視覺推理是主要的性能瓶頸。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • CoT 對視覺密集型任務的負面影響 : 雖然在「多跳計數」這類「語言可以輔助推理」的任務中,我們看到部分閉源模型在 CoT 的輔助下性能有所提升,但在如「2D 變換」這類「高度依賴視覺模擬和空間想像」的任務上,文本 CoT 甚至會對某些模型性能產生負面影響,這提示我們需要新的範式來改進視覺推理。


ICML2025Spotlight|多模態大模型暴露短板? - 天天要聞
  • 實例分析 : 一個典型的錯誤案例是,在判斷磁場力方向時,模型(o1)雖然知道應使用「右手定則」,但在模擬拇指指向時出錯,這源於其有限的視覺空間想像能力。


未來展望:跨模態智能


EMMA 基準系統性地揭示了當前多模態智能在跨越語言與視覺鴻溝時所面臨的具體挑戰與瓶頸,並通過設計精細的任務集合,為下一代跨模態模型的發展明確了實踐方向與關鍵突破點。


儘管當前的多模態模型取得了顯著的進步,但仍面臨著兩個重要的技術瓶頸:


  • 一方面,由於視覺和文本之間信息密度和抽象層次的巨大差異,多模態模型在預訓練階段難以充分實現模態特徵的精準對齊和融合,嚴重製約了模型後續在推理階段的表現;

  • 另一方面,目前模型普遍缺乏視覺信息生成與動態交互的能力,難以實現真正意義上的跨模態互動與視覺狀態的實時更新。


因此,未來多模態智能的發展趨勢必將從現有的語言主導推理模式逐步轉向更深入的模態間動態協作模式。具體而言,下一代模型不僅需要具備視覺動作推理(如調用圖像編輯工具輔助推理)的能力,更要實現視覺狀態的主動更新和跨模態反饋,從而高效地驅動下一輪語言 - 視覺交互推理。EMMA 所揭示的這些具體挑戰與路徑,將有助於研究人員更清晰地設計新型多模態模型結構與訓練策略,真正推動跨模態智能向更高層次邁進。



科技分類資訊推薦

華為發布Pura 80系列,余承東:華為十年研發累計投入12490億,去年研發費佔收入20.8% - 天天要聞

華為發布Pura 80系列,余承東:華為十年研發累計投入12490億,去年研發費佔收入20.8%

紅星資本局6月11日消息,今日下午,華為Pura 80系列及全場景新品發布會在上海舉行。發布會上,華為常務董事、終端BG董事長余承東介紹,華為近十年研發累計投入12490億,2024年研發費用更高達1797億,佔全年收入的20.8%,累計全球有效授權專利15萬。余承東表示,Pura 80系列在視頻拍攝方面表現出色,尤其在高難度的大光比場...
河南移動首建國:整裝再出發 共築新生態 - 天天要聞

河南移動首建國:整裝再出發 共築新生態

大象新聞記者 賀洋6月11日,河南移動舉辦以「共築泛全新生態 共贏AI+新時代」為主題的泛全聯盟合作夥伴大會。河南移動黨委書記、董事長、總經理首建國發表題為《整裝再出發 共築新生態》的主旨演講,系統回顧泛全聯盟發展歷程和取得成績,深入分析行
京東物流進軍沙特:據傳當地已招募上千人團隊!跨境電商平台、中腰部企業是海外市場野心施展的重要領域 - 天天要聞

京東物流進軍沙特:據傳當地已招募上千人團隊!跨境電商平台、中腰部企業是海外市場野心施展的重要領域

新浪科技訊 6月11日上午消息,京東正在沙特複製一個沙特版的京東物流。近日,有沙特網友發現,在利雅得街頭出現了身穿京東快遞衣服的快遞員在配送快遞。一位接近京東的人士向新浪科技獨家透露,「目前京東物流在沙特其實已經有上千人的團隊。
一汽奔騰悅意電混之夜,悅意07全球上市9.98萬起,純電最高210公里 - 天天要聞

一汽奔騰悅意電混之夜,悅意07全球上市9.98萬起,純電最高210公里

5月26日,「生活從此 日新悅意——中國一汽奔騰悅意電混之夜暨奔騰悅意07全球上市」發布會盛大召開,中國一汽逐日動力BMP超級電混首款力作、超大大大電混SUV——奔騰悅意07正式發布。延續悅意序列「時空光影」美學,奔騰悅意07以「超大續航、超大性能、超大可靠」
優色林代運營商赴港IPO:營收凈利連降、高露潔退出前五大客戶 - 天天要聞

優色林代運營商赴港IPO:營收凈利連降、高露潔退出前五大客戶

優色林、夏依等美妝個護品牌的代運營企業凱詰電商,再向資本市場發起衝擊。 6月9日,新京報貝殼財經記者獲悉,上海凱詰電子商務股份有限公司(以下簡稱「凱詰電商」)向港交所提交上市申請書,中信建投國際為獨家保薦人。事實上,早在2021年6月,該公司就曾啟動A股上市計劃,但最終選擇主動撤回申請。時隔四年轉戰港股IPO,...
黃子韜直播談衛生巾「難搶」:引入新生產線、9月鋪設商超渠道 - 天天要聞

黃子韜直播談衛生巾「難搶」:引入新生產線、9月鋪設商超渠道

由於工廠產能受限,黃子韜主理的衛生巾品牌朵薇每天都在直播間上演「搶貨」大戰。6月10日晚間,黃子韜短暫現身「朵薇官方旗艦店」直播間,對衛生巾產能、銷售渠道以及透明工廠等問題進行回應,持續兩小時的直播共有超61.1萬人看過,分批上架的共2.5萬單衛生巾組合裝全部售罄。 新京報貝殼財經記者注意到,由於此次直播場地...