蘋果AI應用遲疑,還在思考「大模型會思考嗎」

2025年06月08日22:20:12 科學 4154


用戶和投資者一直對蘋果在ai的動作遲緩感到不滿,它既不自己研究前沿大模型,對於採納外部模型也非常謹慎。這次wwdc會又一次跳票siri和其他重要的apple intelligence功能。

可能有一個最重要的原因,是蘋果一直覺得大模型不靠譜。

蘋果在自己的網站上公開了一篇論文,認為推理大模型(lrm)的思考能力,無非是幻覺。而8個月前,幾乎是同一組研究員,指出了大語言模型(llm)中數學推理的局限性。

這次他們對比了lrm與llm,在同等計算預算下,他們發現:

低複雜度任務:llm反而優於lrm;

中等複雜度任務:lrm通過增加「思考」展現出優勢;

高複雜度任務:兩類模型均出現全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

蘋果研究團隊並不相信大模型的基準測試,而是自己設計了一個測試環境。尤其是在編程和數學領域的基準模型,研究團隊認為存在數據污染問題,即用於模型訓練的數據與基準數據出現了直接或間接的重合。

這次,蘋果研究團隊構建了一個可控制解謎環境 (controllable puzzle environments ),採用了四個智力遊戲,以可控的任務評估lrm的推理能力:漢諾塔(tower of hanoi) ,跳棋(checker jumping) ,渡河(river crossing) ,積木世界(blocks world) 。

他們發現,即便是當前最先進的lrm(例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking),在面對不同環境下複雜度提升的問題時,依然無法形成可泛化的問題求解能力,其準確率最終在某一複雜度之後全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

(說明:在不同解謎環境中,推理模型的準確率與思考 token 數量隨問題複雜度的變化趨勢如下:隨著複雜度上升,模型最初會投入更多的思考 token,準確率則逐漸下降,直到達到某個臨界點——此時推理過程崩潰,模型表現急劇下滑,且推理努力也隨之減少。)

蘋果團隊對當前以最終準確率為主的評估方式提出了質疑,並引入中間推理過程(thinking traces),藉助確定性的解謎模擬器對其進行擴展分析,發現隨著問題複雜度上升,正確解答在思考軌跡中系統性地較遲出現,相比之下錯誤解答更早出現,這為理解lrm內部的自我糾錯機制提供了量化線索。

這對激烈的推理模型競賽是當頭棒喝,當下的推理模型的訓練範式可能存在著一個根本缺陷,面對真正複雜的問題,擴展定律 (scaling law) 又遇到天花板了:思維 token 的使用量在超過某一複雜度後,反而呈現出反直覺的下降趨勢。

這似乎再一次證明了蘋果同一個研究團隊在8個月前得出的結論:「我們進一步探究了這類模型數學推理能力的脆弱性,發現隨著題目中語句數量的增加,其性能會顯著下降。我們推測,這種性能惡化的根本原因在於:當前llms並不具備真正的邏輯推理能力,它們只是試圖模仿訓練數據中所觀察到的推理過程。」

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

所以,大模型真的會思考嗎?可能庫克和蘋果的研究人員還在思考這個問題。也許從中可以部分理解為什麼蘋果在擁抱大模型方面表現得如此謹慎。

蘋果掌管軟體工程的高級副總裁費德里吉(craig federighi)並不太相信人工智慧。他對這項技術投入的大量資金表示「猶豫」,並且不認為這是一種「核心能力」。

mehrdad farajtabar參與了蘋果上述兩篇論文,這次他不客氣地問道:「這些被稱為「推理模型」的 o1/o3、deepseek-r1 和 claude 3.7 sonnet,真的在「思考」嗎?還是說,它們只是在用更多的算力來做模式匹配而已?



科學分類資訊推薦

月球蓋房子有望就地取材 - 天天要聞

月球蓋房子有望就地取材

‍‍‍‌‍‍‌在月球蓋房子,要從地球上運建材嗎?長期留駐月球,飲用水也要地球「發貨」、飛船「快遞」嗎?「不用!」活力中國調研行採訪團走進位於安徽合肥的地球深空探測實驗室時,記者從科研人員口中聽到了令人振奮的消息。月壤3D列印系統設備。
活力中國調研行|「上新」!合肥繪製「未來產業圖譜」 - 天天要聞

活力中國調研行|「上新」!合肥繪製「未來產業圖譜」

新華社合肥7月1日電 題:「上新」!合肥繪製「未來產業圖譜」新華社記者郭晨、班娟娟、姚遠在安徽省合肥國家高新技術產業開發區,有一條孕育了數十家量子科技企業的「量子大街」。過去的10多年裡,方圓幾公里內,一個擁有中電信量子、本源量子、國儀量子等代表性企業的量子產業集群在此崛起,成為全國乃至全球領先的量子科...
中國人民大學-西湖大學未來人類聯合研究院成立 - 天天要聞

中國人民大學-西湖大學未來人類聯合研究院成立

7月1日,北京青年報記者從中國人民大學獲悉,中國人民大學與西湖大學攜手成立「中國人民大學-西湖大學未來人類聯合研究院」,並面向全球發布「未來人類十大議題」,聚焦人類文明演進的重大挑戰與突破方向,以中....
巨子生物承認檢測方法有局限,華熙生物發文暗指其「偽科學」 - 天天要聞

巨子生物承認檢測方法有局限,華熙生物發文暗指其「偽科學」

6月30日,華熙生物在微信公眾號上發布文章《推動行業進入以檢測結果為宣傳依據的時代》,意有所指地表示,主張免受科學檢驗的必定屬於偽科學。文章直指,在重組膠原蛋白的測量問題中,聲稱沒有統一的檢測方法就無法準確測量,就是一種典型的「免受檢驗策略」,試圖讓自己的主張免受科學檢驗和公共監管。巧合的是,在此之前...
CMJ | 上海六院周健教授團隊:通過機器學習鑒定糖代謝紊亂的新型生物標誌物 - 天天要聞

CMJ | 上海六院周健教授團隊:通過機器學習鑒定糖代謝紊亂的新型生物標誌物

點擊「藍字」關注我們2型糖尿病是我國主要慢性代謝性疾病之一,其主要臨床特徵包括高血糖、胰島素抵抗和肝糖輸出增加等。因此,迫切需要進一步鑒定與糖代謝穩態調節密切相關的新型生物標誌物,從而為建立疾病預警體系和個體化診療方案提供新的理論依據。近日,上海交通大學醫學院附屬第六人民醫院內分泌代謝科周健團隊、代...
中國科學院院士鄭海榮:腦機介面突破性進展將在醫療康復領域 - 天天要聞

中國科學院院士鄭海榮:腦機介面突破性進展將在醫療康復領域

6月30日,中國科學院院士、南京大學副校長鄭海榮,在深圳創新發展研究院等主辦的科技創新院士報告廳上,圍繞AI時代的生物智能前沿——「腦機介面與生物智能」做了分享,他認為腦機介面將引領醫療新變革,是解決未來重大醫療需求的關鍵路徑,腦機介面的突破性進展將出現在醫療康復領域。鄭海榮以科幻電影《阿凡達》中通過意...
機場的大敵,可能不是飛鳥,國家該管管了! - 天天要聞

機場的大敵,可能不是飛鳥,國家該管管了!

如今,無人機的身影隨處可見,不管是用於拍攝壯麗風景,還是助力農業噴洒農藥,它都給我們的生活帶來了諸多便利。 可誰能想到,這小小的無人機,一旦不受控制地亂飛,就會成為機場安全的巨大威脅。 ....
【職引未來】青春無悔 到祖國和人民最需要的地方發光發熱 - 天天要聞

【職引未來】青春無悔 到祖國和人民最需要的地方發光發熱

【職引未來】 當前,不少高校畢業生選擇到基層去、到西部去,到祖國和人民最需要的地方去建功立業。到這些地方就業,青年學子將面臨哪些機遇和挑戰?又將收穫怎樣的人生體驗? 日前,北京師範大學黨委學生工作部職業發展與就業指導中心主任張新穎在接受光明網記者專訪時表示,在祖國最需要的地方奮鬥,青年學子收穫的不僅是...