Claude与人类共著论文指出其三大关键缺陷

2025年06月15日13:12:05 科技 1225

几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。

论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能发展出可泛化的解决问题能力 —— 在不同环境中，当达到一定复杂度时，准确度最终会崩溃至零。」

不过，这篇论文的研究方法也受到了不少质疑，比如我们的一位读者就认为「给数学题题干加无关内容，发现大模型更容易答错，而质疑大模型不会推理」的做法并不十分合理。

著名 LLM 唱衰者 Gary Marcus 也发文指出这项研究的缺点，并再次批评 LLM。总结起来，他的意见有 7 点：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

人类在处理复杂问题和记忆需求方面存在困难。
大型推理模型 (LRM) 不可能解决这个问题，因为输出需要太多的输出 token。
这篇论文是由一名实习生撰写的。
更大的模型可能表现更好。
这些系统可以用代码解决这些难题。
这篇论文只有四个例子，其中至少有一个（汉诺塔）并不完美。
这篇论文并不新鲜；我们已经知道这些模型的泛化能力很差。

更多详情可参阅报道《

https://x.com/lxrjl/status/1932499153596149875

所以，这其实是一篇 AI 与人类合著的论文，并且 AI 还是第一作者。

论文标题：The Illusion of the Illusion of Thinking
论文地址：https://arxiv.org/pdf/2506.09250v1

下面我们就来看看这篇评论性论文的具体内容。

1 引言

Shojaee et al. (2025) 声称通过对规划难题的系统评估，发现了大型推理模型（LRM）的根本局限性。他们的核心发现对 AI 推理研究具有重要意义，即：在超过某些复杂度阈值后，模型准确度会「崩溃」为零。

然而，我们的分析表明，这些明显的失败源于实验设计的选择，而非模型固有的局限性。

2 模型能识别输出约束

苹果的原始研究中忽略了一个关键观察结果：模型在接近输出极限时能够主动识别。用户 @scaling01 最近进行了一项复现研究，表明在进行汉诺塔实验时，模型会显式地陈述「这种模式仍在继续，但为了避免内容过长，我将在此停止」。这表明模型其实已经理解了该问题的求解模式，但会由于实际限制而选择截断输出。

https://x.com/scaling01/status/1931817022926839909

这种将模型行为错误地描述为「推理崩溃」的行为反映了自动化评估系统的一个更广泛的问题，即未能考虑模型的感知和决策。当评估框架无法区分「无法解决」和「选择不进行详尽列举」时，它们可能会错误评估模型的基本能力。

2.1 僵化评估的后果

这种评估限制可能导致其他分析错误。考虑以下统计论证：如果我们逐个字符地对汉诺塔的解进行评分，而不允许纠错，那么完美执行的概率将变为：

其中 p 表示每个 token 的准确度，T 表示 token 总数。如果 T = 10,000 个 token，则有：

p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%

实际上，已有文献《Faith and fate: Limits of transformers on compositionality》提出，这类「统计必然性」是 LLM scaling 的一个基本限制，但它假设模型无法识别并适应自身的局限性，而这一假设与上述证据相悖。

3 不可能解答的难题

在「过河」实验中，评估问题大幅复杂化。Shojaee et al. 测试了有 N ≥ 6 个参与者 / 主体的实例，但使用的船的容量只有 b = 3。然而，研究界已经公认：传教士 - 食人族谜题（及其变体）在 N > 5 且 b = 3 时无解，详见论文《River Crossing Problems: Algebraic Approach》，arXiv:1802.09369。

由于苹果研究者自动将这些不可能的实例计为失败，就无意中暴露了纯程序化评估的弊端。模型获得零分并非因为推理失败，而是因为正确识别了不可解的问题 —— 这相当于惩罚 SAT 求解器，因为该程序对不可满足的公式返回了「不可满足」。

4 物理 token 限制导致明显崩溃

回到汉诺塔分析，我们可以量化问题规模与 token 需求之间的关系。