ICML2025Spotlight|多模态大模型暴露短板？

2025年05月20日21:12:04 科技 1507

“三个点电荷 + Q、-2Q 和 + 3Q 等距放置，哪个向量最能描述作用在 + Q 电荷上的净电力方向？”

在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 GPT-4o，也可能在理解“同性相斥”的基本物理原则时，错误地判断斥力的方向（例如，错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方）。

这个看似简单的物理问题，却暴露了多模态大模型一个“致命缺陷”：当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理！一项最新研究推出的 EMMA 基准测试，如同一面“照妖镜”，揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。

目前该研究已被 ICML 2025 接收为 spotlight，代码数据已全部开源！

标题： Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
论文链接： https://www.arxiv.org/pdf/2501.05444
项目主页：https://emma-benchmark.github.io/
代码仓库： https://github.com/EMMA-Bench/EMMA
数据集： https://huggingface.co/datasets/luckychao/EMMA
单位：电子科技大学，中山大学，华盛顿大学，微软，香港中文大学

目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力，研究发现：即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ，或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20% ！

研究者们还邀请了人类专家完成题目，并对比了人类专家与 AI 模型的解题过程。可以看出人类专家在面对 EMMA 中的复杂问题时，倾向于借助简洁的手绘草图进行“视觉化思考和空间模拟”，高效地找到解题路径。与之形成鲜明对比的是，模型（如 o3）则依赖于详尽的、结构化的文本步骤进行推理。这种差异凸显了当前 MLLMs 在处理多模态信息时，更偏向于运用其强大的语言逻辑能力进行处理，而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。

EMMA：深度考量 MLLMs 的多模态推理极限

将文本与图像信息有机结合、协同进行推理，是人类智能的一项核心能力。然而，多模态大语言模型是否真正具备这种深层次、非割裂的多模态推理能力，至今仍缺乏系统而深入的研究。当前的主流基准测试往往偏重于“文本主导”的推理过程，或仅需利用“浅层的视觉感知”而非“视觉推理”便可解决问题，难以全面衡量模型在复杂任务中对视觉与语言信息的整合能力，因而无法有效评估其真实的多模态理解与推理水平。

为应对这一挑战，研究者们提出了 EMMA—— 一个专为评估 MLLMs 在数学、物理、化学和代码这四大领域进行原生多模态推理而设计的增强型基准，具体如下图所示。EMMA 中的任务要求高级的跨模态推理，这些问题无法通过在单一模态中独立思考来解决，从而为 MLLMs 的推理能力提供了更严苛、更全面的“试金石”。

EMMA 不仅仅是一个新的评估数据集，它是一套精心设计的“考题”，旨在全面考察 MLLMs 在以下方面的能力：

真正的多模态融合： EMMA 的首要标准是考验模型是否能进行“真”多模态推理。这意味着问题必须同时深度依赖视觉信息（如图表、示意图、化学结构、代码可视化）和文本信息（问题描述、逻辑条件）才能解决，从而检验模型在不同模态间无缝切换与深度整合的能力。
跨学科的严峻挑战：为了全面评估模型的泛化能力，EMMA 覆盖了数学、物理、化学和代码这四大核心科学与工程领域。这些领域的问题本质上要求精确的逻辑演绎和对特定领域知识的运用，为 MLLMs 提供了复杂且多样化的推理场景。
细粒度能力诊断与性能极限探索： EMMA 不满足于笼统的评分，而是为每个学科下的具体技能（例如，数学中的“2D 变换”、“3D 空间模拟”，物理中的“受力分析”、“场模拟”等，如上图所示）提供了细致的分类。这种设计使得研究者能够精确分析模型在特定推理环节上的优势与不足，绘制出模型能力的“细粒度画像”。

该研究具有以下几个主要发现：

整体表现堪忧：即使最先进的模型（如 Gemini-2.5-pro-exp-03-25），或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%。无论采用何种提示策略或计算扩展方式，模型都未能有效弥合与人类之间的差距。
思维链 (CoT) 并非万能药：尽管思维链提示在文本推理任务中表现出色，但在 EMMA 的多模态挑战下，其对模型性能的提升有限，甚至对某些开源模型产生负面影响。
测试时计算扩展效果不彰：即使通过增加候选答案数量（如多数、Best-of-N，锦标赛策略）等方式扩展测试时的计算资源，也未能有效弥补模型在根本视觉推理能力上的缺陷。
视觉推理是核心瓶颈：错误分析表明，MLLMs 常常在需要精确空间模拟、多跳视觉推理以及视觉与文本信息整合的任务上失败，尤其是在视觉辅助能极大简化解题路径的问题上。这进一步强调了需要开发新型视觉与语言深度融合的机制。

数据集构建：严谨筛选与细粒度剖析

EMMA 的构建过程经过精心设计，旨在确保其能够有效评估深层多模态推理能力。

数据来源与筛选： EMMA 包含从现有基准（如 MathVision, MathVista, OlympiadBench, MMMU 等）中通过严格筛选流程（如上图所示，过滤掉仅凭文本或“文本 + 图像描述”就能解决的问题）获得的 992 个问题，并与相关领域专家合作手动构建了 1,796 个全新问题，总计 2,788 个问题。

领域覆盖与技能评估：

数学：包含 2D 变换、3D 空间模拟、路径追踪、多跳视觉对象计数、模式推理等。
物理：包含 3D 场模拟、图表推理、路径追踪、多跳视觉推理等。
化学：包含基于知识的计数、结构识别、反应模拟等。
代码：包含图表选择代码、代码选择图表、基于目标图像修改代码（提供或不提供原始图像）等任务，侧重数据可视化。

精细化分类：每个问题都被赋予了细致的技能标签，以便对模型的各项能力进行深入分析。

人工验证与质量控制：所有问题，特别是新构建的问题和分类标签，都经过领域专家的严格审查或创建，以确保问题的质量、相关性以及对多模态推理能力的真实考察。

最终得到 EMMA 数据集的关键统计信息及数据分布如下：

实验与结果：SOTA 模型面临严峻考验

研究团队在 EMMA 上评估了 10 个 SOTA MLLMs，包括开源模型（如 Qwen2-VL, LLaVA-Onevision, InternVL2）和闭源模型（如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1）。

普遍表现不佳：所有模型在 EMMA 上的表现均不理想，与人类专家存在巨大差距，凸显了当前模型在解决复杂多模态推理任务上的局限性。
CoT 效果分化：对于闭源模型，CoT 提示通常能带来性能提升；但对于开源模型，CoT 反而可能导致性能下降，这可能与模型未能有效利用语言辅助多模态推理有关。

测试时计算扩展难补短板：尽管采用多数、Best-of-N、锦标赛选择等策略增加计算量能在一定程度上提升性能，但提升幅度有限，远不足以弥合与人类水平的差距。这表明仅仅增加文本 CoT 的候选数量，难以弥补模型在视觉推理步骤上的根本性不足。

错误分析：视觉推理是核心症结

错误类型分析：对 o1 模型在 EMMA-mini 的数学和代码部分的错误分析显示，视觉推理错误占比最高（52.83%），其次是感知错误（30.19%），而文本推理错误和知识缺乏错误占比较小。这进一步证明视觉推理是主要的性能瓶颈。

CoT 对视觉密集型任务的负面影响：虽然在“多跳计数”这类“语言可以辅助推理”的任务中，我们看到部分闭源模型在 CoT 的辅助下性能有所提升，但在如“2D 变换”这类“高度依赖视觉模拟和空间想象”的任务上，文本 CoT 甚至会对某些模型性能产生负面影响，这提示我们需要新的范式来改进视觉推理。

实例分析：一个典型的错误案例是，在判断磁场力方向时，模型（o1）虽然知道应使用“右手定则”，但在模拟拇指指向时出错，这源于其有限的视觉空间想象能力。

未来展望：跨模态智能

EMMA 基准系统性地揭示了当前多模态智能在跨越语言与视觉鸿沟时所面临的具体挑战与瓶颈，并通过设计精细的任务集合，为下一代跨模态模型的发展明确了实践方向与关键突破点。

尽管当前的多模态模型取得了显著的进步，但仍面临着两个重要的技术瓶颈：

一方面，由于视觉和文本之间信息密度和抽象层次的巨大差异，多模态模型在预训练阶段难以充分实现模态特征的精准对齐和融合，严重制约了模型后续在推理阶段的表现；
另一方面，目前模型普遍缺乏视觉信息生成与动态交互的能力，难以实现真正意义上的跨模态互动与视觉状态的实时更新。

因此，未来多模态智能的发展趋势必将从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。具体而言，下一代模型不仅需要具备视觉动作推理（如调用图像编辑工具辅助推理）的能力，更要实现视觉状态的主动更新和跨模态反馈，从而高效地驱动下一轮语言 - 视觉交互推理。EMMA 所揭示的这些具体挑战与路径，将有助于研究人员更清晰地设计新型多模态模型结构与训练策略，真正推动跨模态智能向更高层次迈进。