天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力

最新重磅研究:蘋果並不認為推理模型比標準 LLM有重大突破

最新研究《思考的幻覺:通過問題複雜性視角理解推理模型的優勢與局限》中,蘋果對「大型語言模型已經具備真正的邏輯思維能力——即真正的「推理能力」——這一普遍存在的假設提出了質疑。蘋果公司的研究人員看到的並非認知領域的突破,而是一種幻覺:這些模型僅僅創造了思考的印象,而實際上並沒有穩定、可理解的思維過程

這篇研究批評的核心點是:當前最前沿的推理模型,在面對真正複雜的問題時,其推理能力會「斷崖式」崩潰,並且暴露出一種反直覺的「思考退化」現象,甚至連「照著演算法抄作業」都做不好

現有評測方法的「陷阱」:為何需要新的實驗場?

目前,評估AI推理能力主要依賴於數學(如MATH、AIME)和編程等基準測試。然而,研究人員指出,這種方法存在兩大弊端:

數據污染(Data Contamination):這些基準測試的題目和答案很可能已經大量存在於模型的訓練數據中。模型可能只是「記住」了答案,而非真正「推理」出答案。論文中的數據顯示,模型在更新的AIME25數據集上的表現反而不如更早的AIME24,這與人類表現恰恰相反,強烈暗示了數據污染對評測結果的干擾

缺乏對「思考過程」的洞察:最終答案的正確與否,無法告訴我們模型是如何思考的,其思維鏈是高效、嚴謹還是充滿了冗餘和錯誤

為了擺脫這些「陷阱」,蘋果的研究團隊轉向了一個更「純凈」的實驗場——可控的解謎環境

精巧的實驗設計:在「謎題」中量化AI的思考能力

研究團隊選取了四個經典的、邏輯結構穩定但複雜度可控的謎題:

漢諾塔(Tower of Hanoi):測試遞歸和規劃能力

跳棋(Checker Jumping):測試序列規劃

過河問題(River Crossing):測試約束滿足和規劃能力

積木世界(Blocks World):測試規劃和狀態管理

通過改變謎題的參數(如漢諾塔的盤子數量、過河問題的人數),研究人員可以精確地控制問題的組合複雜度,同時利用模擬器驗證模型生成的每一步操作是否合規,從而深入剖析其完整的「思考軌跡」

如圖示意:研究人員不僅評估最終答案,還提取並分析模型在<think>標籤內的中間步驟,以洞察其思維過程

核心發現

通過對一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對應的非思考版本)的詳盡測試,研究得到了幾個顛覆性的發現:

發現一:性能的三種「境界」——「思考」並非總是更優

當比較「思考」模型(LRM)和其標準LLM版本時,研究人員發現了三個截然不同的性能區間:

低複雜度區:對於簡單問題,標準模型反而更準確、更高效。LRM的「思考」顯得多餘和累贅

中等複雜度區:隨著問題變難,LRM生成長思維鏈的優勢開始顯現,其性能超越標準模型

高複雜度區:當問題複雜度超過某個臨界點,兩種模型雙雙「崩潰」,準確率降至零。這表明,「思考」機制只是延緩了失敗的到來,並未解決根本性的能力瓶頸

如圖5所示:在低、中、高三種複雜度下,思考模型與非思考模型的性能對比,清晰地展示了三個不同區間的表現

發現二:「思考」的崩潰點與反直覺的「努力退化」

這是整篇論文最令人震驚的發現之一。研究顯示:

準確率斷崖式下跌:所有受測的LRM,在問題複雜度達到某個閾值後,準確率都會急劇下降至零

反直覺的「思考退化」:更奇怪的是,在接近這個「崩潰點」時,模型用于思考的計算量(即生成的思考token數量)非但沒有因問題變難而增加,反而開始顯著減少

如圖示意:隨著複雜度增加(橫軸),模型準確率(上排)最終歸零。與此同時,其思考長度(下排,以token計)在達到峰值後不增反降,彷彿在難題面前主動「放棄思考」

這表明,模型似乎存在一個內在的「縮放限制」。當它「預感到」問題過於困難無法解決時,即便有充足的計算預算(token limit),它也會選擇「躺平」,減少思考的努力

發現三:思維軌跡揭示的低效與掙扎

通過分析模型生成的「思考過程」,研究人員發現了其思維模式的深層問題:

簡單問題「過度思考」(Overthinking):在解決簡單謎題時,模型常常在很早的步驟就找到了正確答案,但之後仍會繼續生成大量冗餘甚至錯誤的探索,浪費了大量計算資源

複雜問題「早期固執」(Early Fixation):在面對難題時,如果模型在早期犯了一個錯誤,它往往會固執地沿著錯誤的路徑繼續探索,很難自我糾正,最終導致失敗。

發現四:令人困惑的「執行」無能

研究人員還進行了一項關鍵實驗,其結果進一步暴露了模型推理能力的脆弱性

「抄作業」都不會:在漢諾塔任務中,研究人員直接在提示(prompt)中提供了完整的、一步不錯的解題演算法,要求模型僅僅是「執行」這個演算法。結果顯示,模型的表現沒有任何改善,依然在相同的複雜度點上崩潰。這表明,模型的瓶頸不僅在於「規劃」和「尋找」解決方案,更在於基礎的、符號化的邏輯步驟執行與驗證能力的缺失

能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問題,但在一個僅需11步的過河問題上卻早早失敗。這強烈暗示,模型的「推理能力」可能嚴重依賴於訓練數據中的常見模式(漢諾塔是教科書級的經典問題),而非通用的、可泛化的邏輯推理能力

寫在最後

蘋果的這項研究很明顯是潑冷水

當前LRM的「思考」機制,更像是一種複雜的啟發式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合複雜度問題時,會遭遇性能和「思考努力」的雙重崩潰,這可能源於其架構的根本限制,

最後蘋果強烈建議:

當前大模型的評估範式亟待革新:我們必須超越依賴於可能被污染的基準測試和最終答案準確率的評估方法,轉向更可控、更深入的過程分析,才能真正理解AI的能力邊界

大家怎麼看這篇研究?

參考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

本文轉自 | AI寒武紀