Claude與人類共著論文指出其三大關鍵缺陷

2025年06月15日13:12:05 科技 1225



幾天前,蘋果一篇《 思考的錯覺 》論文吸睛無數又爭議不斷,其中研究了當今「推理模型」究竟真正能否「推理」的問題,而這裡的結論是否定的。


論文中寫到:「我們的研究表明,最先進的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能發展出可泛化的解決問題能力 —— 在不同環境中,當達到一定複雜度時,準確度最終會崩潰至零。」


不過,這篇論文的研究方法也受到了不少質疑,比如我們的一位讀者就認為「給數學題題干加無關內容,發現大模型更容易答錯,而質疑大模型不會推理」的做法並不十分合理。


著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點,並再次批評 LLM。總結起來,他的意見有 7 點:


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple


  1. 人類在處理複雜問題和記憶需求方面存在困難。

  2. 大型推理模型 (LRM) 不可能解決這個問題,因為輸出需要太多的輸出 token

  3. 這篇論文是由一名實習生撰寫的。

  4. 更大的模型可能表現更好。

  5. 這些系統可以用代碼解決這些難題。

  6. 這篇論文只有四個例子,其中至少有一個(漢諾塔)並不完美。

  7. 這篇論文並不新鮮;我們已經知道這些模型的泛化能力很差。


更多詳情可參閱報道《 Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/lxrjl/status/1932499153596149875


所以,這其實是一篇 AI 與人類合著 的論文,並且 AI 還是第一作者


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


  • 論文標題:The Illusion of the Illusion of Thinking

  • 論文地址:https://arxiv.org/pdf/2506.09250v1


下面我們就來看看這篇評論性論文的具體內容。


1 引言


Shojaee et al. (2025) 聲稱通過對規劃難題的系統評估,發現了大型推理模型(LRM)的根本局限性。他們的核心發現對 AI 推理研究具有重要意義,即: 在超過某些複雜度閾值後,模型準確度會「崩潰」為零


然而,我們的分析表明,這些明顯的失敗源於實驗設計的選擇,而非模型固有的局限性。


2 模型能識別輸出約束


蘋果的原始研究中忽略了一個關鍵觀察結果: 模型在接近輸出極限時能夠主動識別 。 用戶 @scaling01 最近進行了一項復現研究,表明在進行漢諾塔實驗時,模型會顯式地陳述「這種模式仍在繼續,但為了避免內容過長,我將在此停止」。這表明模型其實已經理解了該問題的求解模式,但會由於實際限制而選擇截斷輸出。


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/scaling01/status/1931817022926839909


這種將模型行為錯誤地描述為「推理崩潰」的行為反映了自動化評估系統的一個更廣泛的問題,即 未能考慮模型的感知和決策 。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時,它們可能會錯誤評估模型的基本能力。


2.1 僵化評估的後果


這種評估限制可能導致其他分析錯誤。考慮以下統計論證:如果我們逐個字元地對漢諾塔的解進行評分,而不允許糾錯,那麼完美執行的概率將變為:


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


其中 p 表示每個 token 的準確度,T 表示 token 總數。如果 T = 10,000 個 token,則有:


  • p = 0.9999: P (success) < 37%

  • p = 0.999: P (success) < 0.005%


實際上,已有文獻《Faith and fate: Limits of transformers on compositionality》提出,這類「統計必然性」是 LLM scaling 的一個基本限制,但它假設模型無法識別並適應自身的局限性,而這一假設與上述證據相悖。


3 不可能解答的難題


在「過河」實驗中,評估問題大幅複雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例,但使用的船的容量只有 b = 3。然而,研究界已經公認:傳教士 - 食人族謎題(及其變體)在 N > 5 且 b = 3 時無解,詳見論文《River Crossing Problems: Algebraic Approach》,arXiv:1802.09369。


由於蘋果研究者自動將這些不可能的實例計為失敗,就無意中暴露了純程序化評估的弊端。 模型獲得零分並非因為推理失敗,而是因為正確識別了不可解的問題 —— 這相當於懲罰 SAT 求解器,因為該程序對不可滿足的公式返回了「不可滿足」。


4 物理 token 限制導致明顯崩潰


回到漢諾塔分析,我們可以量化問題規模與 token 需求之間的關係。


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

漢諾塔遊戲規則:將所有圓盤從起始柱按大小順序完整移動到目標柱,且每次只能移動一個圓盤,且大圓盤不能疊在小圓盤上。


蘋果研究者的評估格式要求在每一步輸出完整的移動序列,從而導致 token 數量呈二次方增長。如果序列中每一步大約需要 5 個 token:


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


考慮到分配的 token 預算(Claude-3.7-Sonnet 和 DeepSeek-R1 為 64,000 個,o3-mini 為 100,000 個),則最大可解規模為:


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


原始論文報告的超出這些規模的所謂「崩潰」與這些約束一致。


5 使用另一種表示來恢復性能


為了檢驗模型失敗能否反映推理限制或格式限制,這位 AI 作者與 Alex Lawsen 使用了不同的表示方法,初步測試了相同的模型在 N = 15 的漢諾塔上的表現:


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


提示詞:求解有 15 個圓盤的漢諾塔問題。輸出一個被調用時會 print 答案的 Lua 函數。


結果:所有被測模型(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)的準確度都非常高,且使用的 token 數都不到 5000。


下面展示了 用戶 @janekm 分享的一次測試結果


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/janekm/status/1933481060416799047


6 重新評估原始論文的複雜性主張


蘋果的作者使用了「組合深度(compositional depth)」(最小步數)作為複雜度指標,但這 其實將機械執行與問題求解難度混為一談了


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

問題的複雜度不僅僅由解答的長度決定


漢諾塔雖然需要指數級數量的步數,但每步的決策過程都很簡單,為 O (1)。過河問題步數少得多,但需要滿足複雜的約束條件並進行搜索。這解釋了為什麼模型可能有能力完成 100 步以上的漢諾塔,卻無法解決 5 步的過河問題。


7 總結


Shojaee et al. 的結果只能表明, 模型輸出的 token 數量無法超過其上下文限制,程序化評估可能會同時遺漏模型能力極限和難題的不可解性,並且解答長度無法準確預測問題的難度。這些都是寶貴的 工程見解,但 它們並不支持關於基本推理局限性的論斷


未來的研究應該:


  • 設計能夠區分推理能力和輸出約束的評估方法;

  • 在評估模型性能之前驗證難題的可解性;

  • 使用能夠反映計算難度而非僅僅反映解答長度的複雜度指標;

  • 考慮多種解答表示,以區分演算法理解和執行。


問題不在於大型推理模型(LRM)能否推理,而在於我們的評估方法能否區分推理和文本生成。


網友怎麼看?


同樣,這篇論文也吸引了不少眼球,並且基本都是好評。


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/janekm/status/1933481060416799047


有讀者打聽了這兩位作者的合作模式 —— 其實就是聊天。


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/lxrjl/status/1932557168278188517


也許,我們可以將這篇論文稱為 氛圍論文(vibe paper) ,正如 CMU PhD Behnam Mohammadi 調侃的那樣 :')


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞

https://x.com/OrganicGPT/status/1932502854960366003


不過,反對意見當然也還是存在的。


Claude與人類共著論文指出其三大關鍵缺陷 - 天天要聞


對此,你怎麼看?


科技分類資訊推薦

腦機介面新進展,將如何改變我們的生活? - 天天要聞

腦機介面新進展,將如何改變我們的生活?

大家有沒有想過,未來有一天我們不用說話,只用大腦就能和外界交流;不用動手,僅憑意念就能操控各種設備。這可不是科幻電影里的情節,隨著腦機介面技術的不斷發展,這些場景正一步步走向現實。腦機介面,簡單來說,就是在大腦和外部設備之間建立直接的連接通
谷歌 Pixel 10 系列 4 款機型顏色和存儲陣容曝光 - 天天要聞

谷歌 Pixel 10 系列 4 款機型顏色和存儲陣容曝光

IT之家 7 月 8 日消息,科技媒體 Droid-life 昨日(7 月 7 日)發布博文,報道稱從分銷商處獲悉,谷歌 Pixel 10 系列手機將從 128GB 存儲起步,並透露了顏色和存儲陣容。IT之家援引博文介紹,附上谷歌 Pixel 10 系列四款機型的存儲和顏色陣容如下:Pixel 10:曜石黑(Obsidian):128G / 256GB霜(F
羅馬仕一充電寶突然爆炸:不是召回型號 - 天天要聞

羅馬仕一充電寶突然爆炸:不是召回型號

7月8日,據媒體報道,昨日有網友發布一段辦公室監控視頻稱,其同事去年買的羅馬仕充電寶在辦公室充電時又爆炸了,並且還不是召回型號。 據此前報道,羅馬仕於6月16日宣布,召回2023年6月5日....
vivo Y04e配置曝光:天璣T612處理器+5500mAh電池 - 天天要聞

vivo Y04e配置曝光:天璣T612處理器+5500mAh電池

【CNMO科技消息】近日,有外媒報道,還未發布的vivo Y04e的身影出現在Google Play控制台的資料庫中,一同出現的還有Y04e的性能信息。vivo Y04e根據Google Play控制台披露的信息,vivo Y04e搭載了紫
新能源汽車系統更新指南:新功能搶先體驗 - 天天要聞

新能源汽車系統更新指南:新功能搶先體驗

你是否遇到過這樣的情況,開著新能源汽車,總覺得有些功能不夠順手,或者缺少一些新的體驗?其實,很多時候系統更新就能解決這些問題。就拿最近熱門的新能源汽車系統更新來說,這就像是給車子來了一次「升級大改造」,能讓駕駛體驗直接上一個台階。
小米Q2以微弱優勢勝出,vivo緊隨其後,華為第四 - 天天要聞

小米Q2以微弱優勢勝出,vivo緊隨其後,華為第四

相信這幾天大家都在等三大數據公司的調研報告,無論是全球還是國內的行業都非常感興趣。畢竟現在是一個銷量為王的時代,無論什麼級別的產品放到市場中就可以了。在三大數據公司報告出來之前我們先來看一個國內的報告。
續航破800里!這3款長續航電動車,極速100km/h,適合跑長途車主 - 天天要聞

續航破800里!這3款長續航電動車,極速100km/h,適合跑長途車主

在選購電動車的時候,很多車主需要遠續航的車型,這樣才能夠跑長途,比如外賣小哥每天的續航里程要超過100公里,那麼,選擇哪種電動車更合適呢?行內人為大家分享了三款長續航電動車,最高時速超過100km/h,續航里程突破800里,比較適合跑長途的車主,一起來了解一下