ICML2025Spotlight|多模態大模型暴露短板？

2025年05月20日21:12:04 科技 1507

「三個點電荷 + Q、-2Q 和 + 3Q 等距放置，哪個向量最能描述作用在 + Q 電荷上的凈電力方向？」

在解這道題時，我們可以通過繪製受力分析草圖輕鬆解決。但即使是先進的多模態大語言模型，如 GPT-4o，也可能在理解「同性相斥」的基本物理原則時，錯誤地判斷斥力的方向（例如，錯誤地將 + 3Q 對 + Q 的斥力方向判斷為右下方而非正確的左上方）。

這個看似簡單的物理問題，卻暴露了多模態大模型一個「致命缺陷」：當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的複雜多模態推理！一項最新研究推出的 EMMA 基準測試，如同一面「照妖鏡」，揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。

目前該研究已被 ICML 2025 接收為 spotlight，代碼數據已全部開源！

標題： Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
論文鏈接： https://www.arxiv.org/pdf/2501.05444
項目主頁：https://emma-benchmark.github.io/
代碼倉庫： https://github.com/EMMA-Bench/EMMA
數據集： https://huggingface.co/datasets/luckychao/EMMA
單位：電子科技大學，中山大學，華盛頓大學，微軟，香港中文大學

目前已有多個模型 / 方法在 EMMA 上驗證其多模態推理能力，研究發現：即使最先進的模型 ——Gemini-2.5-pro-exp-03-25 ，或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落後人類專家超 20% ！

研究者們還邀請了人類專家完成題目，並對比了人類專家與 AI 模型的解題過程。可以看出人類專家在面對 EMMA 中的複雜問題時，傾向於藉助簡潔的手繪草圖進行「視覺化思考和空間模擬」，高效地找到解題路徑。與之形成鮮明對比的是，模型（如 o3）則依賴於詳盡的、結構化的文本步驟進行推理。這種差異凸顯了當前 MLLMs 在處理多模態信息時，更偏向於運用其強大的語言邏輯能力進行處理，而較少展現出類人的、以視覺為核心的直觀洞察和靈活高效的解題策略。

EMMA：深度考量 MLLMs 的多模態推理極限

將文本與圖像信息有機結合、協同進行推理，是人類智能的一項核心能力。然而，多模態大語言模型是否真正具備這種深層次、非割裂的多模態推理能力，至今仍缺乏系統而深入的研究。當前的主流基準測試往往偏重於「文本主導」的推理過程，或僅需利用「淺層的視覺感知」而非「視覺推理」便可解決問題，難以全面衡量模型在複雜任務中對視覺與語言信息的整合能力，因而無法有效評估其真實的多模態理解與推理水平。

為應對這一挑戰，研究者們提出了 EMMA—— 一個專為評估 MLLMs 在數學、物理、化學和代碼這四大領域進行原生多模態推理而設計的增強型基準，具體如下圖所示。EMMA 中的任務要求高級的跨模態推理，這些問題無法通過在單一模態中獨立思考來解決，從而為 MLLMs 的推理能力提供了更嚴苛、更全面的「試金石」。

EMMA 不僅僅是一個新的評估數據集，它是一套精心設計的「考題」，旨在全面考察 MLLMs 在以下方面的能力：

真正的多模態融合： EMMA 的首要標準是考驗模型是否能進行「真」多模態推理。這意味著問題必須同時深度依賴視覺信息（如圖表、示意圖、化學結構、代碼可視化）和文本信息（問題描述、邏輯條件）才能解決，從而檢驗模型在不同模態間無縫切換與深度整合的能力。
跨學科的嚴峻挑戰：為了全面評估模型的泛化能力，EMMA 覆蓋了數學、物理、化學和代碼這四大核心科學與工程領域。這些領域的問題本質上要求精確的邏輯演繹和對特定領域知識的運用，為 MLLMs 提供了複雜且多樣化的推理場景。
細粒度能力診斷與性能極限探索： EMMA 不滿足於籠統的評分，而是為每個學科下的具體技能（例如，數學中的「2D 變換」、「3D 空間模擬」，物理中的「受力分析」、「場模擬」等，如上圖所示）提供了細緻的分類。這種設計使得研究者能夠精確分析模型在特定推理環節上的優勢與不足，繪製出模型能力的「細粒度畫像」。

該研究具有以下幾個主要發現：

整體表現堪憂：即使最先進的模型（如 Gemini-2.5-pro-exp-03-25），或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落後人類專家超 20%。無論採用何種提示策略或計算擴展方式，模型都未能有效彌合與人類之間的差距。
思維鏈 (CoT) 並非萬能葯：儘管思維鏈提示在文本推理任務中表現出色，但在 EMMA 的多模態挑戰下，其對模型性能的提升有限，甚至對某些開源模型產生負面影響。
測試時計算擴展效果不彰：即使通過增加候選答案數量（如多數、Best-of-N，錦標賽策略）等方式擴展測試時的計算資源，也未能有效彌補模型在根本視覺推理能力上的缺陷。
視覺推理是核心瓶頸：錯誤分析表明，MLLMs 常常在需要精確空間模擬、多跳視覺推理以及視覺與文本信息整合的任務上失敗，尤其是在視覺輔助能極大簡化解題路徑的問題上。這進一步強調了需要開發新型視覺與語言深度融合的機制。

數據集構建：嚴謹篩選與細粒度剖析

EMMA 的構建過程經過精心設計，旨在確保其能夠有效評估深層多模態推理能力。

數據來源與篩選： EMMA 包含從現有基準（如 MathVision, MathVista, OlympiadBench, MMMU 等）中通過嚴格篩選流程（如上圖所示，過濾掉僅憑文本或「文本 + 圖像描述」就能解決的問題）獲得的 992 個問題，並與相關領域專家合作手動構建了 1,796 個全新問題，總計 2,788 個問題。

領域覆蓋與技能評估：

數學：包含 2D 變換、3D 空間模擬、路徑追蹤、多跳視覺對象計數、模式推理等。
物理：包含 3D 場模擬、圖表推理、路徑追蹤、多跳視覺推理等。
化學：包含基於知識的計數、結構識別、反應模擬等。
代碼：包含圖表選擇代碼、代碼選擇圖表、基於目標圖像修改代碼（提供或不提供原始圖像）等任務，側重數據可視化。

精細化分類：每個問題都被賦予了細緻的技能標籤，以便對模型的各項能力進行深入分析。

人工驗證與質量控制：所有問題，特別是新構建的問題和分類標籤，都經過領域專家的嚴格審查或創建，以確保問題的質量、相關性以及對多模態推理能力的真實考察。

最終得到 EMMA 數據集的關鍵統計信息及數據分布如下：

實驗與結果：SOTA 模型面臨嚴峻考驗

研究團隊在 EMMA 上評估了 10 個 SOTA MLLMs，包括開源模型（如 Qwen2-VL, LLaVA-Onevision, InternVL2）和閉源模型（如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1）。

普遍表現不佳：所有模型在 EMMA 上的表現均不理想，與人類專家存在巨大差距，凸顯了當前模型在解決複雜多模態推理任務上的局限性。
CoT 效果分化：對於閉源模型，CoT 提示通常能帶來性能提升；但對於開源模型，CoT 反而可能導致性能下降，這可能與模型未能有效利用語言輔助多模態推理有關。

測試時計算擴展難補短板：儘管採用多數、Best-of-N、錦標賽選擇等策略增加計算量能在一定程度上提升性能，但提升幅度有限，遠不足以彌合與人類水平的差距。這表明僅僅增加文本 CoT 的候選數量，難以彌補模型在視覺推理步驟上的根本性不足。

錯誤分析：視覺推理是核心癥結

錯誤類型分析：對 o1 模型在 EMMA-mini 的數學和代碼部分的錯誤分析顯示，視覺推理錯誤佔比最高（52.83%），其次是感知錯誤（30.19%），而文本推理錯誤和知識缺乏錯誤佔比較小。這進一步證明視覺推理是主要的性能瓶頸。

CoT 對視覺密集型任務的負面影響：雖然在「多跳計數」這類「語言可以輔助推理」的任務中，我們看到部分閉源模型在 CoT 的輔助下性能有所提升，但在如「2D 變換」這類「高度依賴視覺模擬和空間想像」的任務上，文本 CoT 甚至會對某些模型性能產生負面影響，這提示我們需要新的範式來改進視覺推理。

實例分析：一個典型的錯誤案例是，在判斷磁場力方向時，模型（o1）雖然知道應使用「右手定則」，但在模擬拇指指向時出錯，這源於其有限的視覺空間想像能力。

未來展望：跨模態智能

EMMA 基準系統性地揭示了當前多模態智能在跨越語言與視覺鴻溝時所面臨的具體挑戰與瓶頸，並通過設計精細的任務集合，為下一代跨模態模型的發展明確了實踐方向與關鍵突破點。

儘管當前的多模態模型取得了顯著的進步，但仍面臨著兩個重要的技術瓶頸：

一方面，由於視覺和文本之間信息密度和抽象層次的巨大差異，多模態模型在預訓練階段難以充分實現模態特徵的精準對齊和融合，嚴重製約了模型後續在推理階段的表現；
另一方面，目前模型普遍缺乏視覺信息生成與動態交互的能力，難以實現真正意義上的跨模態互動與視覺狀態的實時更新。

因此，未來多模態智能的發展趨勢必將從現有的語言主導推理模式逐步轉向更深入的模態間動態協作模式。具體而言，下一代模型不僅需要具備視覺動作推理（如調用圖像編輯工具輔助推理）的能力，更要實現視覺狀態的主動更新和跨模態反饋，從而高效地驅動下一輪語言 - 視覺交互推理。EMMA 所揭示的這些具體挑戰與路徑，將有助於研究人員更清晰地設計新型多模態模型結構與訓練策略，真正推動跨模態智能向更高層次邁進。