天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力

2025年06月09日01:02:18 科技 1166
天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力 - 天天要聞

最新重磅研究:蘋果並不認為推理模型比標準 LLM有重大突破

最新研究《思考的幻覺:通過問題複雜性視角理解推理模型的優勢與局限》中,蘋果對「大型語言模型已經具備真正的邏輯思維能力——即真正的「推理能力」——這一普遍存在的假設提出了質疑。蘋果公司的研究人員看到的並非認知領域的突破,而是一種幻覺:這些模型僅僅創造了思考的印象,而實際上並沒有穩定、可理解的思維過程

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力 - 天天要聞

這篇研究批評的核心點是:當前最前沿的推理模型,在面對真正複雜的問題時,其推理能力會「斷崖式」崩潰,並且暴露出一種反直覺的「思考退化」現象,甚至連「照着算法抄作業」都做不好

現有評測方法的「陷阱」:為何需要新的實驗場?

目前,評估AI推理能力主要依賴於數學(如MATH、AIME)和編程等基準測試。然而,研究人員指出,這種方法存在兩大弊端:

數據污染(Data Contamination):這些基準測試的題目和答案很可能已經大量存在於模型的訓練數據中。模型可能只是「記住」了答案,而非真正「推理」出答案。論文中的數據顯示,模型在更新的AIME25數據集上的表現反而不如更早的AIME24,這與人類表現恰恰相反,強烈暗示了數據污染對評測結果的干擾

缺乏對「思考過程」的洞察:最終答案的正確與否,無法告訴我們模型是如何思考的,其思維鏈是高效、嚴謹還是充滿了冗餘和錯誤

為了擺脫這些「陷阱」,蘋果的研究團隊轉向了一個更「純凈」的實驗場——可控的解謎環境

精巧的實驗設計:在「謎題」中量化AI的思考能力

研究團隊選取了四個經典的、邏輯結構穩定但複雜度可控的謎題:

漢諾塔(Tower of Hanoi):測試遞歸和規劃能力

跳棋(Checker Jumping):測試序列規劃

過河問題(River Crossing):測試約束滿足和規劃能力

積木世界(Blocks World):測試規劃和狀態管理

通過改變謎題的參數(如漢諾塔的盤子數量、過河問題的人數),研究人員可以精確地控制問題的組合複雜度,同時利用模擬器驗證模型生成的每一步操作是否合規,從而深入剖析其完整的「思考軌跡」

如圖示意:研究人員不僅評估最終答案,還提取並分析模型在<think>標籤內的中間步驟,以洞察其思維過程

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力 - 天天要聞

核心發現

通過對一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對應的非思考版本)的詳盡測試,研究得到了幾個顛覆性的發現:

發現一:性能的三種「境界」——「思考」並非總是更優

當比較「思考」模型(LRM)和其標準LLM版本時,研究人員發現了三個截然不同的性能區間:

低複雜度區:對於簡單問題,標準模型反而更準確、更高效。LRM的「思考」顯得多餘和累贅

中等複雜度區:隨着問題變難,LRM生成長思維鏈的優勢開始顯現,其性能超越標準模型

高複雜度區:當問題複雜度超過某個臨界點,兩種模型雙雙「崩潰」,準確率降至零。這表明,「思考」機制只是延緩了失敗的到來,並未解決根本性的能力瓶頸

如圖5所示:在低、中、高三種複雜度下,思考模型與非思考模型的性能對比,清晰地展示了三個不同區間的表現

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力 - 天天要聞

發現二:「思考」的崩潰點與反直覺的「努力退化」

這是整篇論文最令人震驚的發現之一。研究顯示:

準確率斷崖式下跌:所有受測的LRM,在問題複雜度達到某個閾值後,準確率都會急劇下降至零

反直覺的「思考退化」:更奇怪的是,在接近這個「崩潰點」時,模型用于思考的計算量(即生成的思考token數量)非但沒有因問題變難而增加,反而開始顯著減少

如圖示意:隨着複雜度增加(橫軸),模型準確率(上排)最終歸零。與此同時,其思考長度(下排,以token計)在達到峰值後不增反降,彷彿在難題面前主動「放棄思考」

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等「推理」模型根本沒有推理能力 - 天天要聞

這表明,模型似乎存在一個內在的「縮放限制」。當它「預感到」問題過於困難無法解決時,即便有充足的計算預算(token limit),它也會選擇「躺平」,減少思考的努力

發現三:思維軌跡揭示的低效與掙扎

通過分析模型生成的「思考過程」,研究人員發現了其思維模式的深層問題:

簡單問題「過度思考」(Overthinking):在解決簡單謎題時,模型常常在很早的步驟就找到了正確答案,但之後仍會繼續生成大量冗餘甚至錯誤的探索,浪費了大量計算資源

複雜問題「早期固執」(Early Fixation):在面對難題時,如果模型在早期犯了一個錯誤,它往往會固執地沿着錯誤的路徑繼續探索,很難自我糾正,最終導致失敗。

發現四:令人困惑的「執行」無能

研究人員還進行了一項關鍵實驗,其結果進一步暴露了模型推理能力的脆弱性

「抄作業」都不會:在漢諾塔任務中,研究人員直接在提示(prompt)中提供了完整的、一步不錯的解題算法,要求模型僅僅是「執行」這個算法。結果顯示,模型的表現沒有任何改善,依然在相同的複雜度點上崩潰。這表明,模型的瓶頸不僅在於「規劃」和「尋找」解決方案,更在於基礎的、符號化的邏輯步驟執行與驗證能力的缺失

能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問題,但在一個僅需11步的過河問題上卻早早失敗。這強烈暗示,模型的「推理能力」可能嚴重依賴於訓練數據中的常見模式(漢諾塔是教科書級的經典問題),而非通用的、可泛化的邏輯推理能力

寫在最後

蘋果的這項研究很明顯是潑冷水

當前LRM的「思考」機制,更像是一種複雜的啟發式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合複雜度問題時,會遭遇性能和「思考努力」的雙重崩潰,這可能源於其架構的根本限制,

最後蘋果強烈建議:

當前大模型的評估範式亟待革新:我們必須超越依賴於可能被污染的基準測試和最終答案準確率的評估方法,轉向更可控、更深入的過程分析,才能真正理解AI的能力邊界

大家怎麼看這篇研究?

參考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

本文轉自 | AI寒武紀

科技分類資訊推薦

學術前沿:「可見性」(Visibility)是什麼? - 天天要聞

學術前沿:「可見性」(Visibility)是什麼?

這幾年,新聞傳播研究中出現了一群新的關於「性」的新概念,透明性、可供性、物質性、具身性……2023年新傳考研中開始有學校考察「可見性」這個概念。根據湯普森的界定,「可見」意味着「什麼能被看見,什麼能在視野中被感知」,不可見則意味着被隱匿。
6000元檔機皇混戰!天璣驍龍對決北斗星閃 - 天天要聞

6000元檔機皇混戰!天璣驍龍對決北斗星閃

OPPO Find X8 Pro(6499元)影像發燒友閉眼沖!核心搭載聯發科天璣9400芯片,性能直接拉滿。最驚艷的是哈蘇聯名四攝,5000萬像素超廣角(120°視野)+兩軸OIS防抖長焦,支持6倍光變+18倍數碼變焦,拍星空夜景細節炸裂
機械設計中傳動軸設計的要點 - 天天要聞

機械設計中傳動軸設計的要點

一、傳動軸設計的核心地位傳動軸作為機械系統中的核心動力傳輸部件,承擔著傳遞扭矩、支撐旋轉部件、承受複雜載荷的重要使命。其設計質量直接影響設備運行效率、使用壽命和安全性。
小米16工程機曝光!這配置讓庫克都睡不着覺? - 天天要聞

小米16工程機曝光!這配置讓庫克都睡不着覺?

隨着科技的不斷進步,智能手機市場每年都在迎來新的變革與突破。2025年,小米將推出其最新旗艦手機——小米16,這款手機不僅在設計、性能、攝影和電池續航方面進行了全面升級,還引入了一系列令人驚嘆的新技術,成為市場上最受期待的手機之一。
iPhone 17 Pro Max提前大曝光,終於嘗嘗鮮! - 天天要聞

iPhone 17 Pro Max提前大曝光,終於嘗嘗鮮!

隨着2025年9月的臨近,科技圈的目光再次聚焦在蘋果即將推出的下一代旗艦手機——iPhone 17 Pro Max上。作為蘋果最高端的智能手機,這款設備預計將帶來一系列令人振奮的升級,從設計到性能,再到攝影能力,都將為用戶帶來前所未有的體驗
全市同行「圍觀」 湖裡台青創業基地「出圈」 - 天天要聞

全市同行「圍觀」 湖裡台青創業基地「出圈」

6月5日下午廈門市台青創業基地觀摩交流會在湖裡區海西MCN兩岸青年三創基地成功舉辦此次活動旨在通過實地觀摩與深入交流,共同探索支持台青創業基地提質增效、轉型升級的有效路徑,進一步提升全市台青創業基地的整體服務水平。
小直屏顏值封神!vivo S30系列開售即巔峰,搶到就是賺到 - 天天要聞

小直屏顏值封神!vivo S30系列開售即巔峰,搶到就是賺到

手機圈又出新爆款!vivo S30系列今天正式登場,配置給力、顏值爆表,還攜手三麗鷗送出專屬定製禮盒。從外觀、系統到影像全面升級,尤其是這次的mini版,輕巧又便攜,堪稱拍照達人的隨身利器。官方已經同步開啟多平台開售,限量禮盒數量有限,錯過