蘋果AI應用遲疑,還在思考「大模型會思考嗎」

2025年06月08日22:20:12 科學 4154


用戶和投資者一直對蘋果在ai的動作遲緩感到不滿,它既不自己研究前沿大模型,對於採納外部模型也非常謹慎。這次wwdc會又一次跳票siri和其他重要的apple intelligence功能。

可能有一個最重要的原因,是蘋果一直覺得大模型不靠譜。

蘋果在自己的網站上公開了一篇論文,認為推理大模型(lrm)的思考能力,無非是幻覺。而8個月前,幾乎是同一組研究員,指出了大語言模型(llm)中數學推理的局限性。

這次他們對比了lrm與llm,在同等計算預算下,他們發現:

低複雜度任務:llm反而優於lrm;

中等複雜度任務:lrm通過增加「思考」展現出優勢;

高複雜度任務:兩類模型均出現全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

蘋果研究團隊並不相信大模型的基準測試,而是自己設計了一個測試環境。尤其是在編程和數學領域的基準模型,研究團隊認為存在數據污染問題,即用於模型訓練的數據與基準數據出現了直接或間接的重合。

這次,蘋果研究團隊構建了一個可控制解謎環境 (controllable puzzle environments ),採用了四個智力遊戲,以可控的任務評估lrm的推理能力:漢諾塔(tower of hanoi) ,跳棋(checker jumping) ,渡河(river crossing) ,積木世界(blocks world) 。

他們發現,即便是當前最先進的lrm(例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking),在面對不同環境下複雜度提升的問題時,依然無法形成可泛化的問題求解能力,其準確率最終在某一複雜度之後全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

(說明:在不同解謎環境中,推理模型的準確率與思考 token 數量隨問題複雜度的變化趨勢如下:隨著複雜度上升,模型最初會投入更多的思考 token,準確率則逐漸下降,直到達到某個臨界點——此時推理過程崩潰,模型表現急劇下滑,且推理努力也隨之減少。)

蘋果團隊對當前以最終準確率為主的評估方式提出了質疑,並引入中間推理過程(thinking traces),藉助確定性的解謎模擬器對其進行擴展分析,發現隨著問題複雜度上升,正確解答在思考軌跡中系統性地較遲出現,相比之下錯誤解答更早出現,這為理解lrm內部的自我糾錯機制提供了量化線索。

這對激烈的推理模型競賽是當頭棒喝,當下的推理模型的訓練範式可能存在著一個根本缺陷,面對真正複雜的問題,擴展定律 (scaling law) 又遇到天花板了:思維 token 的使用量在超過某一複雜度後,反而呈現出反直覺的下降趨勢。

這似乎再一次證明了蘋果同一個研究團隊在8個月前得出的結論:「我們進一步探究了這類模型數學推理能力的脆弱性,發現隨著題目中語句數量的增加,其性能會顯著下降。我們推測,這種性能惡化的根本原因在於:當前llms並不具備真正的邏輯推理能力,它們只是試圖模仿訓練數據中所觀察到的推理過程。」

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

所以,大模型真的會思考嗎?可能庫克和蘋果的研究人員還在思考這個問題。也許從中可以部分理解為什麼蘋果在擁抱大模型方面表現得如此謹慎。

蘋果掌管軟體工程的高級副總裁費德里吉(craig federighi)並不太相信人工智慧。他對這項技術投入的大量資金表示「猶豫」,並且不認為這是一種「核心能力」。

mehrdad farajtabar參與了蘋果上述兩篇論文,這次他不客氣地問道:「這些被稱為「推理模型」的 o1/o3、deepseek-r1 和 claude 3.7 sonnet,真的在「思考」嗎?還是說,它們只是在用更多的算力來做模式匹配而已?



科學分類資訊推薦

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

蘋果AI應用遲疑,還在思考「大模型會思考嗎」

用戶和投資者一直對蘋果在AI的動作遲緩感到不滿,它既不自己研究前沿大模型,對於採納外部模型也非常謹慎。這次WWDC會又一次跳票Siri和其他重要的Apple Intelligence功能。可能有一個最重要的原因,是蘋果一直覺得大模型不靠譜。蘋果在自己的網站上公開了一篇論文,認為推理大模型(LRM)的思考能力,無非是幻覺。而8個月前...
好消息!南昌兩單位入選省級新型研發機構 - 天天要聞

好消息!南昌兩單位入選省級新型研發機構

【來源:南昌發布】記者從省科技廳獲悉, 近日,2025年度省新型研發機構認定結果公布,我市江西銅業技術研究院有限公司、江西求是高等研究院脫穎而出,被認定為省級新型研發機構,彰顯了南昌在科技創新領域的強勁實力。
端午一過,蛇蟲出沒!被蛇咬傷怎麼辦? - 天天要聞

端午一過,蛇蟲出沒!被蛇咬傷怎麼辦?

央廣網合肥6月8日消息(記者 周然 見習記者 劉浩)夏季是毒蛇咬傷的高發季節,端午之後,蛇類活動頻繁。近日,央廣網記者就戶外活動如何防範蛇蟲叮咬及應急處理等問題,專訪了祁門蛇傷研究所所長倪永松。
錢學森、吳文俊、黃旭華……來看院士們的大學成績單 - 天天要聞

錢學森、吳文俊、黃旭華……來看院士們的大學成績單

從南洋公學到今日交大一批又一批學子邁入交大學府在各自的領域發光發熱為祖國的繁榮昌盛添磚加瓦准考證、註冊證、報名單承載著他們的青春記憶和夢想追求今天是高考第二天在人生重要的十字路口讓我們將時光倒流回上個世紀一睹這些跨越時光的珍貴物件回溯一代代
今天,「陽陽」回家! - 天天要聞

今天,「陽陽」回家!

6月7日記者從三亞市藍絲帶海洋保護協會獲悉經過一個多月的治療已具備野外放歸條件——擱淺被救助的糙齒海豚「陽陽」將於6月8日從三亞港務局碼頭啟程當天在距離三亞70海里外海域放歸大海6月8日,糙齒海豚「陽陽」放歸儀式在三亞海昌海洋生物保育中心舉
從「種珊瑚」到「育珊瑚」 海底「造林」有了新進展 - 天天要聞

從「種珊瑚」到「育珊瑚」 海底「造林」有了新進展

新華社南寧6月8日電(記者黃凱瑩、田子駿)世界海洋日來臨之際,廣西大學珊瑚礁科研團隊在地處北緯21°的廣西北海潿洲島海域收到了最好的「節日禮物」——歷經11年的堅守、探索和科研攻關,團隊在潿洲島海域實現珊瑚可控大量產卵。據了解,這一進展標誌著潿洲島海域成為全球氣候變化背景下珊瑚的「避難所」的可能性大增。珊...
澳大利亞野生鸚鵡街頭開飲水器排隊喝水,科學家:成當地鳥界傳統 - 天天要聞

澳大利亞野生鸚鵡街頭開飲水器排隊喝水,科學家:成當地鳥界傳統

近日,澳大利亞科學家的一項研究顯示,近年來,悉尼市區的野生鳳頭鸚鵡學會了自己開飲水器,還會排隊喝水。科學家形容,這已成為當地「鳥界的飲水傳統」。(澳大利亞野生鸚鵡街頭開飲水器排隊喝水。)2018年,一名研究員散步時,偶然拍到棲息在西悉尼的野生鳳頭鸚鵡集體使用飲水器的畫面,驚訝之下便開展了系統性的後續研究...
我國海洋能開發利用技術已邁入世界第一方陣 - 天天要聞

我國海洋能開發利用技術已邁入世界第一方陣

今天(8日)是第十七個「世界海洋日」和第十八個「全國海洋宣傳日」,今年的主題是「保護海洋生態系統 人與自然和諧共生」。我國持續加強紅樹林、珊瑚礁保護修復紅樹林、珊瑚礁是天然的「海岸衛士」,能有效消減風暴潮等自然災害,保護沿海社區和基礎設施。
今天,他們與「海底雨林」的故事,「浮」出了水面…… - 天天要聞

今天,他們與「海底雨林」的故事,「浮」出了水面……

海洋是地球生命的搖籃,珊瑚礁是海洋中的「熱帶雨林」,在維護生物多樣性等方面具有重要作用。在海南,有這樣一群人,在為守護這片「海底雨林」默默努力著,為海洋生態保護作出了積極貢獻。今年的6月8日,是第17個世界海洋日和第18個全國海洋宣傳日。