Claude与人类共著论文指出其三大关键缺陷

2025年06月15日13:12:05 科技 1225



几天前,苹果一篇《 思考的错觉 》论文吸睛无数又争议不断,其中研究了当今“推理模型”究竟真正能否“推理”的问题,而这里的结论是否定的。


论文中写到:“我们的研究表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能发展出可泛化的解决问题能力 —— 在不同环境中,当达到一定复杂度时,准确度最终会崩溃至零。”


不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为“给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理”的做法并不十分合理。


著名 LLM 唱衰者 Gary Marcus 也发文指出这项研究的缺点,并再次批评 LLM。总结起来,他的意见有 7 点:


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple


  1. 人类在处理复杂问题和记忆需求方面存在困难。

  2. 大型推理模型 (LRM) 不可能解决这个问题,因为输出需要太多的输出 token

  3. 这篇论文是由一名实习生撰写的。

  4. 更大的模型可能表现更好。

  5. 这些系统可以用代码解决这些难题。

  6. 这篇论文只有四个例子,其中至少有一个(汉诺塔)并不完美。

  7. 这篇论文并不新鲜;我们已经知道这些模型的泛化能力很差。


更多详情可参阅报道《 Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/lxrjl/status/1932499153596149875


所以,这其实是一篇 AI 与人类合著 的论文,并且 AI 还是第一作者


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


  • 论文标题:The Illusion of the Illusion of Thinking

  • 论文地址:https://arxiv.org/pdf/2506.09250v1


下面我们就来看看这篇评论性论文的具体内容。


1 引言


Shojaee et al. (2025) 声称通过对规划难题的系统评估,发现了大型推理模型(LRM)的根本局限性。他们的核心发现对 AI 推理研究具有重要意义,即: 在超过某些复杂度阈值后,模型准确度会“崩溃”为零


然而,我们的分析表明,这些明显的失败源于实验设计的选择,而非模型固有的局限性。


2 模型能识别输出约束


苹果的原始研究中忽略了一个关键观察结果: 模型在接近输出极限时能够主动识别 。 用户 @scaling01 最近进行了一项复现研究,表明在进行汉诺塔实验时,模型会显式地陈述“这种模式仍在继续,但为了避免内容过长,我将在此停止”。这表明模型其实已经理解了该问题的求解模式,但会由于实际限制而选择截断输出。


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/scaling01/status/1931817022926839909


这种将模型行为错误地描述为“推理崩溃”的行为反映了自动化评估系统的一个更广泛的问题,即 未能考虑模型的感知和决策 。当评估框架无法区分“无法解决”和“选择不进行详尽列举”时,它们可能会错误评估模型的基本能力。


2.1 僵化评估的后果


这种评估限制可能导致其他分析错误。考虑以下统计论证:如果我们逐个字符地对汉诺塔的解进行评分,而不允许纠错,那么完美执行的概率将变为:


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


其中 p 表示每个 token 的准确度,T 表示 token 总数。如果 T = 10,000 个 token,则有:


  • p = 0.9999: P (success) < 37%

  • p = 0.999: P (success) < 0.005%


实际上,已有文献《Faith and fate: Limits of transformers on compositionality》提出,这类“统计必然性”是 LLM scaling 的一个基本限制,但它假设模型无法识别并适应自身的局限性,而这一假设与上述证据相悖。


3 不可能解答的难题


在“过河”实验中,评估问题大幅复杂化。Shojaee et al. 测试了有 N ≥ 6 个参与者 / 主体的实例,但使用的船的容量只有 b = 3。然而,研究界已经公认:传教士 - 食人族谜题(及其变体)在 N > 5 且 b = 3 时无解,详见论文《River Crossing Problems: Algebraic Approach》,arXiv:1802.09369。


由于苹果研究者自动将这些不可能的实例计为失败,就无意中暴露了纯程序化评估的弊端。 模型获得零分并非因为推理失败,而是因为正确识别了不可解的问题 —— 这相当于惩罚 SAT 求解器,因为该程序对不可满足的公式返回了“不可满足”。


4 物理 token 限制导致明显崩溃


回到汉诺塔分析,我们可以量化问题规模与 token 需求之间的关系。


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

汉诺塔游戏规则:将所有圆盘从起始柱按大小顺序完整移动到目标柱,且每次只能移动一个圆盘,且大圆盘不能叠在小圆盘上。


苹果研究者的评估格式要求在每一步输出完整的移动序列,从而导致 token 数量呈二次方增长。如果序列中每一步大约需要 5 个 token:


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


考虑到分配的 token 预算(Claude-3.7-Sonnet 和 DeepSeek-R1 为 64,000 个,o3-mini 为 100,000 个),则最大可解规模为:


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


原始论文报告的超出这些规模的所谓“崩溃”与这些约束一致。


5 使用另一种表示来恢复性能


为了检验模型失败能否反映推理限制或格式限制,这位 AI 作者与 Alex Lawsen 使用了不同的表示方法,初步测试了相同的模型在 N = 15 的汉诺塔上的表现:


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


提示词:求解有 15 个圆盘的汉诺塔问题。输出一个被调用时会 print 答案的 Lua 函数。


结果:所有被测模型(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)的准确度都非常高,且使用的 token 数都不到 5000。


下面展示了 用户 @janekm 分享的一次测试结果


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/janekm/status/1933481060416799047


6 重新评估原始论文的复杂性主张


苹果的作者使用了“组合深度(compositional depth)”(最小步数)作为复杂度指标,但这 其实将机械执行与问题求解难度混为一谈了


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

问题的复杂度不仅仅由解答的长度决定


汉诺塔虽然需要指数级数量的步数,但每步的决策过程都很简单,为 O (1)。过河问题步数少得多,但需要满足复杂的约束条件并进行搜索。这解释了为什么模型可能有能力完成 100 步以上的汉诺塔,却无法解决 5 步的过河问题。


7 总结


Shojaee et al. 的结果只能表明, 模型输出的 token 数量无法超过其上下文限制,程序化评估可能会同时遗漏模型能力极限和难题的不可解性,并且解答长度无法准确预测问题的难度。这些都是宝贵的 工程见解,但 它们并不支持关于基本推理局限性的论断


未来的研究应该:


  • 设计能够区分推理能力和输出约束的评估方法;

  • 在评估模型性能之前验证难题的可解性;

  • 使用能够反映计算难度而非仅仅反映解答长度的复杂度指标;

  • 考虑多种解答表示,以区分算法理解和执行。


问题不在于大型推理模型(LRM)能否推理,而在于我们的评估方法能否区分推理和文本生成。


网友怎么看?


同样,这篇论文也吸引了不少眼球,并且基本都是好评。


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/janekm/status/1933481060416799047


有读者打听了这两位作者的合作模式 —— 其实就是聊天。


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/lxrjl/status/1932557168278188517


也许,我们可以将这篇论文称为 氛围论文(vibe paper) ,正如 CMU PhD Behnam Mohammadi 调侃的那样 :')


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻

https://x.com/OrganicGPT/status/1932502854960366003


不过,反对意见当然也还是存在的。


Claude与人类共著论文指出其三大关键缺陷 - 天天要闻


对此,你怎么看?


科技分类资讯推荐

续航破800里!这3款长续航电动车,极速100km/h,适合跑长途车主 - 天天要闻

续航破800里!这3款长续航电动车,极速100km/h,适合跑长途车主

在选购电动车的时候,很多车主需要远续航的车型,这样才能够跑长途,比如外卖小哥每天的续航里程要超过100公里,那么,选择哪种电动车更合适呢?行内人为大家分享了三款长续航电动车,最高时速超过100km/h,续航里程突破800里,比较适合跑长途的车主,一起来了解一下
客服系统:企业成功的黄金钥匙 - 天天要闻

客服系统:企业成功的黄金钥匙

在当今竞争激烈的商业环境中,优质的客户服务已成为区分企业的关键因素。一个高效、智能的客服系统不仅能够极大提升客户满意度,还能帮助企业节约成本、提高效率并深化市场洞察。快速响应:缩短客户等待时间在信息迅速流通的时代,客户期望能得到即时的回应和
如何选购安全放心的充电宝?市场监管部门给你支招→ - 天天要闻

如何选购安全放心的充电宝?市场监管部门给你支招→

移动电源也就是我们常说的充电宝在有效缓解电子设备“续航焦虑”的同时,安全问题最近也备受人们关注。如何选购一款安全放心的移动电源,市场监管部门的专家给大家支招。1、看CCC标志:移动电源经过产品检测和工厂检查,获得CCC认证证书后加施CCC标
预算不高但想要享受旗舰级体验?这四款手机闭眼选 - 天天要闻

预算不高但想要享受旗舰级体验?这四款手机闭眼选

【CNMO科技导购】在如今的智能手机市场,旗舰机型虽然性能强悍,但动辄五六千元的价格让不少消费者望而却步。不过,随着中高端市场的激烈竞争,许多厂商推出了中端旗舰机型,它们在性能、影像、续航等方面甚至能媲美高端旗舰手机。一加Ace 5至尊版曾几何时,中端手机给人的印象是“性能一般”“拍照凑合”“续航勉强够用”...
iOS 26 代码显示:苹果地图将新增自然语言搜索和过热保护功能 - 天天要闻

iOS 26 代码显示:苹果地图将新增自然语言搜索和过热保护功能

IT之家 7 月 8 日消息,@Steve Moser 今天在 X 上发帖,分享了他在 iOS 26 测试版代码字符串中发现的两项 Apple Maps 新功能,且这两项功能此前均未官宣。iOS 26 开发者测试版代码证实,Apple Maps 将新增两项功能:自然语言搜索:功能描述:用说话的方式进行搜索(Search the Way You Talk)支持
三星 Galaxy Watch8 / Classic 智能手表新宣传图曝光:方圆设计 - 天天要闻

三星 Galaxy Watch8 / Classic 智能手表新宣传图曝光:方圆设计

IT之家 7 月 8 日消息,消息源 Roland Quandt 今天(7 月 8 日)在 Bluesky 平台上发布动态,分享了三星 Galaxy Watch8 和 Galaxy Watch8 Classic 两款智能手表的宣传图。和此前曝光的渲染图相似,本次曝光的宣传图中,三星 Galaxy Watch8 和 Galaxy Watch8 Classic
苹果 Masimo 再次就 Apple Watch 进口禁令对簿公堂 - 天天要闻

苹果 Masimo 再次就 Apple Watch 进口禁令对簿公堂

IT之家 7 月 8 日消息,路透社今日报道称,苹果公司当地时间周一于美国联邦巡回上诉法院就 Apple Watch 进口禁令提出上诉,要求推翻美国国际贸易委员会(ITC)2023 年底作出的裁决。上述裁决认定苹果侵犯了医疗科技公司 Masimo 血氧监测相关专利,禁止 Apple Watch Series 9 及 Ultra 2 型号在美销售。本案结果将决
首超 Win10,微软 Win11 成为全球第一大桌面操作系统 - 天天要闻

首超 Win10,微软 Win11 成为全球第一大桌面操作系统

IT之家 7 月 8 日消息,statcounter 数据显示,2025 年 7 月,微软 Windows 11 系统首次超越 Windows 10,成为全球范围内第一大 Windows 操作系统。Windows 11 在 Windows 中的份额占比达到 52%,Windows 10 降到了 44.59%。IT之家查询发现,从全球桌面操作系统整体来看,Wi
苹果联合哥伦比亚大学开发AI系统SceneScout,为盲人解锁街景导航 - 天天要闻

苹果联合哥伦比亚大学开发AI系统SceneScout,为盲人解锁街景导航

IT之家 7 月 8 日消息,苹果与哥伦比亚大学的研究团队开发出了一项名为 SceneScout 的 AI 原型系统,旨在为盲人及低视力群体(BLV)提供街景导航辅助。该系统结合苹果地图(Apple Maps)API 与多模态大语言模型(基于 GPT-4o 内核),生成定制化环境描述。IT之家注意到,相关论文已经发表在预印平台 arXiv 上(未经同行评审.