天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力

2025年06月09日01:02:18 科技 1166
天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力 - 天天要闻

最新重磅研究:苹果并不认为推理模型比标准 LLM有重大突破

最新研究《思考的幻觉:通过问题复杂性视角理解推理模型的优势与局限》中,苹果对“大型语言模型已经具备真正的逻辑思维能力——即真正的“推理能力”——这一普遍存在的假设提出了质疑。苹果公司的研究人员看到的并非认知领域的突破,而是一种幻觉:这些模型仅仅创造了思考的印象,而实际上并没有稳定、可理解的思维过程

天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力 - 天天要闻

这篇研究批评的核心点是:当前最前沿的推理模型,在面对真正复杂的问题时,其推理能力会“断崖式”崩溃,并且暴露出一种反直觉的“思考退化”现象,甚至连“照着算法抄作业”都做不好

现有评测方法的“陷阱”:为何需要新的实验场?

目前,评估AI推理能力主要依赖于数学(如MATH、AIME)和编程等基准测试。然而,研究人员指出,这种方法存在两大弊端:

数据污染(Data Contamination):这些基准测试的题目和答案很可能已经大量存在于模型的训练数据中。模型可能只是“记住”了答案,而非真正“推理”出答案。论文中的数据显示,模型在更新的AIME25数据集上的表现反而不如更早的AIME24,这与人类表现恰恰相反,强烈暗示了数据污染对评测结果的干扰

缺乏对“思考过程”的洞察:最终答案的正确与否,无法告诉我们模型是如何思考的,其思维链是高效、严谨还是充满了冗余和错误

为了摆脱这些“陷阱”,苹果的研究团队转向了一个更“纯净”的实验场——可控的解谜环境

精巧的实验设计:在“谜题”中量化AI的思考能力

研究团队选取了四个经典的、逻辑结构稳定但复杂度可控的谜题:

汉诺塔(Tower of Hanoi):测试递归和规划能力

跳棋(Checker Jumping):测试序列规划

过河问题(River Crossing):测试约束满足和规划能力

积木世界(Blocks World):测试规划和状态管理

通过改变谜题的参数(如汉诺塔的盘子数量、过河问题的人数),研究人员可以精确地控制问题的组合复杂度,同时利用模拟器验证模型生成的每一步操作是否合规,从而深入剖析其完整的“思考轨迹”

如图示意:研究人员不仅评估最终答案,还提取并分析模型在<think>标签内的中间步骤,以洞察其思维过程

天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力 - 天天要闻

核心发现

通过对一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其对应的非思考版本)的详尽测试,研究得到了几个颠覆性的发现:

发现一:性能的三种“境界”——“思考”并非总是更优

当比较“思考”模型(LRM)和其标准LLM版本时,研究人员发现了三个截然不同的性能区间:

低复杂度区:对于简单问题,标准模型反而更准确、更高效。LRM的“思考”显得多余和累赘

中等复杂度区:随着问题变难,LRM生成长思维链的优势开始显现,其性能超越标准模型

高复杂度区:当问题复杂度超过某个临界点,两种模型双双“崩溃”,准确率降至零。这表明,“思考”机制只是延缓了失败的到来,并未解决根本性的能力瓶颈

如图5所示:在低、中、高三种复杂度下,思考模型与非思考模型的性能对比,清晰地展示了三个不同区间的表现

天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力 - 天天要闻

发现二:“思考”的崩溃点与反直觉的“努力退化”

这是整篇论文最令人震惊的发现之一。研究显示:

准确率断崖式下跌:所有受测的LRM,在问题复杂度达到某个阈值后,准确率都会急剧下降至零

反直觉的“思考退化”:更奇怪的是,在接近这个“崩溃点”时,模型用于思考的计算量(即生成的思考token数量)非但没有因问题变难而增加,反而开始显著减少

如图示意:随着复杂度增加(横轴),模型准确率(上排)最终归零。与此同时,其思考长度(下排,以token计)在达到峰值后不增反降,仿佛在难题面前主动“放弃思考”

天塌了!苹果刚刚证明:DeepSeek,o3,Claude等“推理”模型根本没有推理能力 - 天天要闻

这表明,模型似乎存在一个内在的“缩放限制”。当它“预感到”问题过于困难无法解决时,即便有充足的计算预算(token limit),它也会选择“躺平”,减少思考的努力

发现三:思维轨迹揭示的低效与挣扎

通过分析模型生成的“思考过程”,研究人员发现了其思维模式的深层问题:

简单问题“过度思考”(Overthinking):在解决简单谜题时,模型常常在很早的步骤就找到了正确答案,但之后仍会继续生成大量冗余甚至错误的探索,浪费了大量计算资源

复杂问题“早期固执”(Early Fixation):在面对难题时,如果模型在早期犯了一个错误,它往往会固执地沿着错误的路径继续探索,很难自我纠正,最终导致失败。

发现四:令人困惑的“执行”无能

研究人员还进行了一项关键实验,其结果进一步暴露了模型推理能力的脆弱性

“抄作业”都不会:在汉诺塔任务中,研究人员直接在提示(prompt)中提供了完整的、一步不错的解题算法,要求模型仅仅是“执行”这个算法。结果显示,模型的表现没有任何改善,依然在相同的复杂度点上崩溃。这表明,模型的瓶颈不仅在于“规划”和“寻找”解决方案,更在于基础的、符号化的逻辑步骤执行与验证能力的缺失

能力极度不均衡:Claude 3.7 Sonnet模型能正确解决需要上百步的汉诺塔问题,但在一个仅需11步的过河问题上却早早失败。这强烈暗示,模型的“推理能力”可能严重依赖于训练数据中的常见模式(汉诺塔是教科书级的经典问题),而非通用的、可泛化的逻辑推理能力

写在最后

苹果的这项研究很明显是泼冷水

当前LRM的“思考”机制,更像是一种复杂的启发式搜索或模式匹配,而非人类意义上的、可泛化的逻辑推理,这些模型在处理高组合复杂度问题时,会遭遇性能和“思考努力”的双重崩溃,这可能源于其架构的根本限制,

最后苹果强烈建议:

当前大模型的评估范式亟待革新:我们必须超越依赖于可能被污染的基准测试和最终答案准确率的评估方法,转向更可控、更深入的过程分析,才能真正理解AI的能力边界

大家怎么看这篇研究?

参考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

本文转自 | AI寒武纪

科技分类资讯推荐

学术前沿:“可见性”(Visibility)是什么? - 天天要闻

学术前沿:“可见性”(Visibility)是什么?

这几年,新闻传播研究中出现了一群新的关于“性”的新概念,透明性、可供性、物质性、具身性……2023年新传考研中开始有学校考察“可见性”这个概念。根据汤普森的界定,“可见”意味着“什么能被看见,什么能在视野中被感知”,不可见则意味着被隐匿。
6000元档机皇混战!天玑骁龙对决北斗星闪 - 天天要闻

6000元档机皇混战!天玑骁龙对决北斗星闪

OPPO Find X8 Pro(6499元)影像发烧友闭眼冲!核心搭载联发科天玑9400芯片,性能直接拉满。最惊艳的是哈苏联名四摄,5000万像素超广角(120°视野)+两轴OIS防抖长焦,支持6倍光变+18倍数码变焦,拍星空夜景细节炸裂
机械设计中传动轴设计的要点 - 天天要闻

机械设计中传动轴设计的要点

一、传动轴设计的核心地位传动轴作为机械系统中的核心动力传输部件,承担着传递扭矩、支撑旋转部件、承受复杂载荷的重要使命。其设计质量直接影响设备运行效率、使用寿命和安全性。
小米16工程机曝光!这配置让库克都睡不着觉? - 天天要闻

小米16工程机曝光!这配置让库克都睡不着觉?

随着科技的不断进步,智能手机市场每年都在迎来新的变革与突破。2025年,小米将推出其最新旗舰手机——小米16,这款手机不仅在设计、性能、摄影和电池续航方面进行了全面升级,还引入了一系列令人惊叹的新技术,成为市场上最受期待的手机之一。
iPhone 17 Pro Max提前大曝光,终于尝尝鲜! - 天天要闻

iPhone 17 Pro Max提前大曝光,终于尝尝鲜!

随着2025年9月的临近,科技圈的目光再次聚焦在苹果即将推出的下一代旗舰手机——iPhone 17 Pro Max上。作为苹果最高端的智能手机,这款设备预计将带来一系列令人振奋的升级,从设计到性能,再到摄影能力,都将为用户带来前所未有的体验
全市同行“围观” 湖里台青创业基地“出圈” - 天天要闻

全市同行“围观” 湖里台青创业基地“出圈”

6月5日下午厦门市台青创业基地观摩交流会在湖里区海西MCN两岸青年三创基地成功举办此次活动旨在通过实地观摩与深入交流,共同探索支持台青创业基地提质增效、转型升级的有效路径,进一步提升全市台青创业基地的整体服务水平。
小直屏颜值封神!vivo S30系列开售即巅峰,抢到就是赚到 - 天天要闻

小直屏颜值封神!vivo S30系列开售即巅峰,抢到就是赚到

手机圈又出新爆款!vivo S30系列今天正式登场,配置给力、颜值爆表,还携手三丽鸥送出专属定制礼盒。从外观、系统到影像全面升级,尤其是这次的mini版,轻巧又便携,堪称拍照达人的随身利器。官方已经同步开启多平台开售,限量礼盒数量有限,错过