ICML2025Spotlight|多模态大模型暴露短板?

2025年05月20日21:12:04 科技 1507



“三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?”


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻


在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解“同性相斥”的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。


这个看似简单的物理问题,却暴露了多模态大模型一个“致命缺陷”: 当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理 !一项最新研究推出的 EMMA 基准测试,如同一面“照妖镜”,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。


目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • 标题: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

  • 论文链接: https://www.arxiv.org/pdf/2501.05444

  • 项目主页:https://emma-benchmark.github.io/

  • 代码仓库: https://github.com/EMMA-Bench/EMMA

  • 数据集: https://huggingface.co/datasets/luckychao/EMMA

  • 单位: 电子科技大学中山大学华盛顿大学微软香港中文大学


目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现: 即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻

研究者们还邀请了人类专家完成题目,并对比了人类专家与 AI 模型的解题过程。可以看出人类专家在面对 EMMA 中的复杂问题时,倾向于借助简洁的手绘草图进行“视觉化思考和空间模拟”,高效地找到解题路径。与之形成鲜明对比的是,模型(如 o3)则依赖于详尽的、结构化的文本步骤进行推理。这种差异凸显了当前 MLLMs 在处理多模态信息时,更偏向于运用其强大的语言逻辑能力进行处理,而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻

EMMA:深度考量 MLLMs 的多模态推理极限


将文本与图像信息有机结合、协同进行推理,是人类智能的一项核心能力。然而,多模态大语言模型是否真正具备这种深层次、非割裂的多模态推理能力,至今仍缺乏系统而深入的研究。当前的主流基准测试往往偏重于“文本主导”的推理过程,或仅需利用“浅层的视觉感知”而非“视觉推理”便可解决问题,难以全面衡量模型在复杂任务中对视觉与语言信息的整合能力,因而无法有效评估其真实的多模态理解与推理水平。


为应对这一挑战,研究者们提出了 EMMA—— 一个专为评估 MLLMs 在数学、物理、化学和代码这四大领域进行原生多模态推理而设计的增强型基准,具体如下图所示。EMMA 中的任务要求高级的跨模态推理,这些问题无法通过在单一模态中独立思考来解决,从而为 MLLMs 的推理能力提供了更严苛、更全面的“试金石”。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻

EMMA 不仅仅是一个新的评估数据集,它是一套精心设计的“考题”,旨在全面考察 MLLMs 在以下方面的能力:


  • 真正的多模态融合 : EMMA 的首要标准是考验模型是否能进行“真”多模态推理。这意味着问题必须同时深度依赖视觉信息(如图表、示意图、化学结构、代码可视化)和文本信息(问题描述、逻辑条件)才能解决,从而检验模型在不同模态间无缝切换与深度整合的能力。

  • 跨学科的严峻挑战 : 为了全面评估模型的泛化能力,EMMA 覆盖了数学、物理、化学和代码这四大核心科学与工程领域。这些领域的问题本质上要求精确的逻辑演绎和对特定领域知识的运用,为 MLLMs 提供了复杂且多样化的推理场景。

  • 细粒度能力诊断与性能极限探索 : EMMA 不满足于笼统的评分,而是为每个学科下的具体技能(例如,数学中的“2D 变换”、“3D 空间模拟”,物理中的“受力分析”、“场模拟”等,如上图所示)提供了细致的分类。这种设计使得研究者能够精确分析模型在特定推理环节上的优势与不足,绘制出模型能力的“细粒度画像”。


该研究具有以下几个主要发现


  • 整体表现堪忧 : 即使最先进的模型(如 Gemini-2.5-pro-exp-03-25) ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%。无论采用何种提示策略或计算扩展方式,模型都未能有效弥合与人类之间的差距。

  • 思维链 (CoT) 并非万能药 : 尽管思维链提示在文本推理任务中表现出色,但在 EMMA 的多模态挑战下,其对模型性能的提升有限,甚至对某些开源模型产生负面影响。

  • 测试时计算扩展效果不彰 : 即使通过增加候选答案数量(如多数、Best-of-N,锦标赛策略)等方式扩展测试时的计算资源,也未能有效弥补模型在根本视觉推理能力上的缺陷。

  • 视觉推理是核心瓶颈 : 错误分析表明,MLLMs 常常在需要精确空间模拟、多跳视觉推理以及视觉与文本信息整合的任务上失败,尤其是在视觉辅助能极大简化解题路径的问题上。这进一步强调了需要开发新型视觉与语言深度融合的机制。


数据集构建:严谨筛选与细粒度剖析


EMMA 的构建过程经过精心设计,旨在确保其能够有效评估深层多模态推理能力。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻

  • 数据来源与筛选 : EMMA 包含从现有基准(如 MathVision, MathVista, OlympiadBench, MMMU 等)中通过严格筛选流程(如上图所示,过滤掉仅凭文本或“文本 + 图像描述”就能解决的问题)获得的 992 个问题,并与相关领域专家合作手动构建了 1,796 个全新问题,总计 2,788 个问题。


  • 领域覆盖与技能评估


  • 数学 : 包含 2D 变换、3D 空间模拟、路径追踪、多跳视觉对象计数、模式推理等。

  • 物理 : 包含 3D 场模拟、图表推理、路径追踪、多跳视觉推理等。

  • 化学 : 包含基于知识的计数、结构识别、反应模拟等。

  • 代码 : 包含图表选择代码、代码选择图表、基于目标图像修改代码(提供或不提供原始图像)等任务,侧重数据可视化。


  • 精细化分类 : 每个问题都被赋予了细致的技能标签,以便对模型的各项能力进行深入分析。


  • 人工验证与质量控制 : 所有问题,特别是新构建的问题和分类标签,都经过领域专家的严格审查或创建,以确保问题的质量、相关性以及对多模态推理能力的真实考察。


最终得到 EMMA 数据集的关键统计信息及数据分布如下:


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻

实验与结果:SOTA 模型面临严峻考验


研究团队在 EMMA 上评估了 10 个 SOTA MLLMs,包括开源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和闭源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • 普遍表现不佳 : 所有模型在 EMMA 上的表现均不理想,与人类专家存在巨大差距,凸显了当前模型在解决复杂多模态推理任务上的局限性。


  • CoT 效果分化 : 对于闭源模型,CoT 提示通常能带来性能提升;但对于开源模型,CoT 反而可能导致性能下降,这可能与模型未能有效利用语言辅助多模态推理有关。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • 测试时计算扩展难补短板 : 尽管采用多数、Best-of-N、锦标赛选择等策略增加计算量能在一定程度上提升性能,但提升幅度有限,远不足以弥合与人类水平的差距。这表明仅仅增加文本 CoT 的候选数量,难以弥补模型在视觉推理步骤上的根本性不足。


错误分析:视觉推理是核心症结


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • 错误类型分析 : 对 o1 模型 在 EMMA-mini 的数学和代码部分的错误分析显示,视觉推理错误占比最高(52.83%),其次是感知错误(30.19%),而文本推理错误和知识缺乏错误占比较小。这进一步证明视觉推理是主要的性能瓶颈。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • CoT 对视觉密集型任务的负面影响 : 虽然在“多跳计数”这类“语言可以辅助推理”的任务中,我们看到部分闭源模型在 CoT 的辅助下性能有所提升,但在如“2D 变换”这类“高度依赖视觉模拟和空间想象”的任务上,文本 CoT 甚至会对某些模型性能产生负面影响,这提示我们需要新的范式来改进视觉推理。


ICML2025Spotlight|多模态大模型暴露短板? - 天天要闻
  • 实例分析 : 一个典型的错误案例是,在判断磁场力方向时,模型(o1)虽然知道应使用“右手定则”,但在模拟拇指指向时出错,这源于其有限的视觉空间想象能力。


未来展望:跨模态智能


EMMA 基准系统性地揭示了当前多模态智能在跨越语言与视觉鸿沟时所面临的具体挑战与瓶颈,并通过设计精细的任务集合,为下一代跨模态模型的发展明确了实践方向与关键突破点。


尽管当前的多模态模型取得了显著的进步,但仍面临着两个重要的技术瓶颈:


  • 一方面,由于视觉和文本之间信息密度和抽象层次的巨大差异,多模态模型在预训练阶段难以充分实现模态特征的精准对齐和融合,严重制约了模型后续在推理阶段的表现;

  • 另一方面,目前模型普遍缺乏视觉信息生成与动态交互的能力,难以实现真正意义上的跨模态互动与视觉状态的实时更新。


因此,未来多模态智能的发展趋势必将从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。具体而言,下一代模型不仅需要具备视觉动作推理(如调用图像编辑工具辅助推理)的能力,更要实现视觉状态的主动更新和跨模态反馈,从而高效地驱动下一轮语言 - 视觉交互推理。EMMA 所揭示的这些具体挑战与路径,将有助于研究人员更清晰地设计新型多模态模型结构与训练策略,真正推动跨模态智能向更高层次迈进。



科技分类资讯推荐

百度前副总裁璩静开医美诊所,人均消费2218元 - 天天要闻

百度前副总裁璩静开医美诊所,人均消费2218元

红星资本局7月2日消息,百度前副总裁璩静在华为总部坂田基地附近开了一家医美诊所。据公开资料,璩静名下新增一家存续企业——深圳大为诊所。该诊所成立于2024年12月23日,璩静持股比例为100%,认缴出资额为100万元,经营范围为诊所服务等。
千里智行,常用常新,传祺向往S7 开启重磅OTA升级 - 天天要闻

千里智行,常用常新,传祺向往S7 开启重磅OTA升级

7月2日,传祺向往S7 OTA如期而至,OTA 2.0版本正式全量推送。本次升级新增16项功能,31项 功能升级和57项体验优化,主要涉及智能座舱、智能辅助驾驶、娱乐系统、车机交互等多个维度,旨在为用户提供常用常新的出行体验,功能强大又好用。
九州风神推出大霜塔棱镜风冷散热器:双塔棱镜顶盖,209 元 - 天天要闻

九州风神推出大霜塔棱镜风冷散热器:双塔棱镜顶盖,209 元

IT之家 7 月 3 日消息,九州风神 DeepCool 现已推出大霜塔棱镜 (AG620 ARGB V2) 风冷散热器。其采用双塔双风扇六热管直触设计,双塔顶部均配有 ARGB 灯效“棱镜顶盖”。大霜塔棱镜长宽高 129×136×162 (mm),支持 45mm 高内存条。其六根 6mm 双向恒定热平衡热管采用 CTT 2.0 核心触控技术在塔体底部并管排
今年5月中国大陆笔记本电脑线上市场销量增长,均价直逼7000元 - 天天要闻

今年5月中国大陆笔记本电脑线上市场销量增长,均价直逼7000元

【TechWeb】洛图科技(RUNTO)的报告显示,2025年5月,中国大陆笔记本电脑线上公开零售市场的销量达到了78.6万台,同比增长了20.6%。销售额方面,达到了54.1亿元,同比增长了39.3%。值得注意的是,近两年来,中国笔记本电脑线上市场的均价长期超过6000元,远超其他IT及消费类电子产品。5月份,笔记本电脑线上市场的均价更是...
​ 产品性能获认可,飞骧科技成功打入高端供应链 - 天天要闻

​ 产品性能获认可,飞骧科技成功打入高端供应链

飞骧科技作为国产射频前端芯片领域的领军企业,近期在市场表现方面频传捷报。凭借5G产品的持续放量及在国产替代浪潮中的突出表现,飞骧科技正逐步巩固其在国内PA领域的市场地位,成为行业关注的焦点。在5G市场,飞骧科技展现出强劲的增长势头。2023
与 AMD FSR4 同源,索尼 PS5 Pro 游戏机明年将迎新款超分算法 - 天天要闻

与 AMD FSR4 同源,索尼 PS5 Pro 游戏机明年将迎新款超分算法

IT之家 7 月 3 日消息,外媒 Tom's Guide 此前同 AMD 和索尼 PlayStation 双方高管就 Project Amethyst 合作项目的进展进行了交流。而根据事后报道,PS5 Pro 游戏机将在明年迎来新款的超分辨率算法。▲ AMD 代表(左)和索尼 PlayStation 代表(右)各持被劈开的紫水晶的一半AMD 和索尼 Pla
消息称某厂 SM8850 新机全系标配 50Mp 3X 中底潜望镜 - 天天要闻

消息称某厂 SM8850 新机全系标配 50Mp 3X 中底潜望镜

IT之家 7 月 3 日消息,博主 @数码闲聊站 今日爆料称,某厂子系旗舰线 SM8850,目前全系标配 50Mp 3X 中底潜望镜,现阶段基本确定 50Mp+50Mp+50Mp。结合此前爆料来看,预计为 iQOO 15 手机。此前,该博主曾透露一款 SM8850 神秘新机将标配 6.85 英寸 2K 分辨率三星 LTPO 定制四窄边大直屏,支持 Pol-l
美媒:西门子收到美国商务部通知,特朗普政府已解除对华芯片设计软件禁令 - 天天要闻

美媒:西门子收到美国商务部通知,特朗普政府已解除对华芯片设计软件禁令

【文/观察者网 熊超然】彭博社当地时间7月2日报道称,根据德国西门子公司发布的一份声明,美国商务部已通知该公司,在中国开展业务不再需要获得“政府许可”。报道就此称,特朗普政府至少已解除了对华芯片设计软件销售的出口许可要求,并认为这是中美两国为促进关键技术流动而正实施的一项贸易协议的一部分。作为全球领先的...