Claude與人類共著論文指出其三大關鍵缺陷

2025年06月15日13:12:05 科技 1225

幾天前，蘋果一篇《思考的錯覺》論文吸睛無數又爭議不斷，其中研究了當今「推理模型」究竟真正能否「推理」的問題，而這裡的結論是否定的。

論文中寫到：「我們的研究表明，最先進的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能發展出可泛化的解決問題能力 —— 在不同環境中，當達到一定複雜度時，準確度最終會崩潰至零。」

不過，這篇論文的研究方法也受到了不少質疑，比如我們的一位讀者就認為「給數學題題干加無關內容，發現大模型更容易答錯，而質疑大模型不會推理」的做法並不十分合理。

著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點，並再次批評 LLM。總結起來，他的意見有 7 點：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

人類在處理複雜問題和記憶需求方面存在困難。
大型推理模型 (LRM) 不可能解決這個問題，因為輸出需要太多的輸出 token。
這篇論文是由一名實習生撰寫的。
更大的模型可能表現更好。
這些系統可以用代碼解決這些難題。
這篇論文只有四個例子，其中至少有一個（漢諾塔）並不完美。
這篇論文並不新鮮；我們已經知道這些模型的泛化能力很差。

更多詳情可參閱報道《

https://x.com/lxrjl/status/1932499153596149875

所以，這其實是一篇 AI 與人類合著的論文，並且 AI 還是第一作者。

論文標題：The Illusion of the Illusion of Thinking
論文地址：https://arxiv.org/pdf/2506.09250v1

下面我們就來看看這篇評論性論文的具體內容。

1 引言

Shojaee et al. (2025) 聲稱通過對規劃難題的系統評估，發現了大型推理模型（LRM）的根本局限性。他們的核心發現對 AI 推理研究具有重要意義，即：在超過某些複雜度閾值後，模型準確度會「崩潰」為零。

然而，我們的分析表明，這些明顯的失敗源於實驗設計的選擇，而非模型固有的局限性。

2 模型能識別輸出約束

蘋果的原始研究中忽略了一個關鍵觀察結果：模型在接近輸出極限時能夠主動識別。用戶 @scaling01 最近進行了一項復現研究，表明在進行漢諾塔實驗時，模型會顯式地陳述「這種模式仍在繼續，但為了避免內容過長，我將在此停止」。這表明模型其實已經理解了該問題的求解模式，但會由於實際限制而選擇截斷輸出。

https://x.com/scaling01/status/1931817022926839909

這種將模型行為錯誤地描述為「推理崩潰」的行為反映了自動化評估系統的一個更廣泛的問題，即未能考慮模型的感知和決策。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時，它們可能會錯誤評估模型的基本能力。

2.1 僵化評估的後果

這種評估限制可能導致其他分析錯誤。考慮以下統計論證：如果我們逐個字符地對漢諾塔的解進行評分，而不允許糾錯，那麼完美執行的概率將變為：

其中 p 表示每個 token 的準確度，T 表示 token 總數。如果 T = 10,000 個 token，則有：

p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%

實際上，已有文獻《Faith and fate: Limits of transformers on compositionality》提出，這類「統計必然性」是 LLM scaling 的一個基本限制，但它假設模型無法識別並適應自身的局限性，而這一假設與上述證據相悖。

3 不可能解答的難題

在「過河」實驗中，評估問題大幅複雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例，但使用的船的容量只有 b = 3。然而，研究界已經公認：傳教士 - 食人族謎題（及其變體）在 N > 5 且 b = 3 時無解，詳見論文《River Crossing Problems: Algebraic Approach》，arXiv:1802.09369。

由於蘋果研究者自動將這些不可能的實例計為失敗，就無意中暴露了純程序化評估的弊端。模型獲得零分並非因為推理失敗，而是因為正確識別了不可解的問題 —— 這相當於懲罰 SAT 求解器，因為該程序對不可滿足的公式返回了「不可滿足」。

4 物理 token 限制導致明顯崩潰

回到漢諾塔分析，我們可以量化問題規模與 token 需求之間的關係。