蘋果AI應用遲疑，還在思考「大模型會思考嗎」

2025年06月08日22:20:12 科學 4154

用戶和投資者一直對蘋果在ai的動作遲緩感到不滿，它既不自己研究前沿大模型，對於採納外部模型也非常謹慎。這次wwdc會又一次跳票siri和其他重要的apple intelligence功能。

可能有一個最重要的原因，是蘋果一直覺得大模型不靠譜。

蘋果在自己的網站上公開了一篇論文，認為推理大模型（lrm）的思考能力，無非是幻覺。而8個月前，幾乎是同一組研究員，指出了大語言模型（llm）中數學推理的局限性。

這次他們對比了lrm與llm，在同等計算預算下，他們發現：

低複雜度任務：llm反而優於lrm；

中等複雜度任務：lrm通過增加「思考」展現出優勢；

高複雜度任務：兩類模型均出現全面崩潰。

蘋果AI應用遲疑，還在思考「大模型會思考嗎」 - 天天要聞

蘋果研究團隊並不相信大模型的基準測試，而是自己設計了一個測試環境。尤其是在編程和數學領域的基準模型，研究團隊認為存在數據污染問題，即用於模型訓練的數據與基準數據出現了直接或間接的重合。

這次，蘋果研究團隊構建了一個可控制解謎環境（controllable puzzle environments ），採用了四個智力遊戲，以可控的任務評估lrm的推理能力：漢諾塔（tower of hanoi），跳棋（checker jumping），渡河（river crossing），積木世界（blocks world）。

他們發現，即便是當前最先進的lrm（例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking），在面對不同環境下複雜度提升的問題時，依然無法形成可泛化的問題求解能力，其準確率最終在某一複雜度之後全面崩潰。

蘋果AI應用遲疑，還在思考「大模型會思考嗎」 - 天天要聞

（說明：在不同解謎環境中，推理模型的準確率與思考 token 數量隨問題複雜度的變化趨勢如下：隨着複雜度上升，模型最初會投入更多的思考 token，準確率則逐漸下降，直到達到某個臨界點——此時推理過程崩潰，模型表現急劇下滑，且推理努力也隨之減少。）

蘋果團隊對當前以最終準確率為主的評估方式提出了質疑，並引入中間推理過程（thinking traces），藉助確定性的解謎模擬器對其進行擴展分析，發現隨着問題複雜度上升，正確解答在思考軌跡中系統性地較遲出現，相比之下錯誤解答更早出現，這為理解lrm內部的自我糾錯機制提供了量化線索。

這對激烈的推理模型競賽是當頭棒喝，當下的推理模型的訓練範式可能存在着一個根本缺陷，面對真正複雜的問題，擴展定律（scaling law) 又遇到天花板了：思維 token 的使用量在超過某一複雜度後，反而呈現出反直覺的下降趨勢。

這似乎再一次證明了蘋果同一個研究團隊在8個月前得出的結論：「我們進一步探究了這類模型數學推理能力的脆弱性，發現隨着題目中語句數量的增加，其性能會顯著下降。我們推測，這種性能惡化的根本原因在於：當前llms並不具備真正的邏輯推理能力，它們只是試圖模仿訓練數據中所觀察到的推理過程。」

蘋果AI應用遲疑，還在思考「大模型會思考嗎」 - 天天要聞

所以，大模型真的會思考嗎？可能庫克和蘋果的研究人員還在思考這個問題。也許從中可以部分理解為什麼蘋果在擁抱大模型方面表現得如此謹慎。

蘋果掌管軟件工程的高級副總裁費德里吉（craig federighi）並不太相信人工智能。他對這項技術投入的大量資金表示「猶豫」，並且不認為這是一種「核心能力」。

mehrdad farajtabar參與了蘋果上述兩篇論文，這次他不客氣地問道：「這些被稱為「推理模型」的 o1/o3、deepseek-r1 和 claude 3.7 sonnet，真的在「思考」嗎？還是說，它們只是在用更多的算力來做模式匹配而已？

科學

邁威生物躍過「J曲線」轉折點 - 天天要聞

邁威生物躍過「J曲線」轉折點

邁威生物為爆發中的創新葯BD浪潮，又添了一把火。日前，其宣布兩項BD合作，與齊魯製藥就長效G-CSF產品8MW0511達成的合作（3.8億元首付款+1.2億元里程碑款），是本土商業化的經典雙贏；而與谷歌系抗衰老巨頭Calico圍繞IL-11單抗9MW3811的聯手（2500萬美元首付款+5.71億美元里程碑款），則彰顯全球視野下的價值挖掘能力。兩項...

07月02日 7647

中國石油長慶油田採油十廠決戰百日推動競賽任務落地見效 - 天天要聞

中國石油長慶油田採油十廠決戰百日推動競賽任務落地見效

「功崇惟志，業廣惟勤。」2025年上半年，中國石油長慶油田採油十廠緊扣全年任務目標，以「大幹100天決勝上半年」勞動競賽為載體，全面掀起奪油上產熱潮。廣大幹部員工迎難而上、奮勇拼搏，用汗水書寫擔當，用實績回應挑戰，生產效率大幅提升，安全環保平穩受控，經營業績穩健向好，為完成全年任務目標奠定堅實基礎。中國石...

07月02日 5911

武漢一救援隊把無人機「開發到極致」，實現「套圈」式救人，台灣同胞：技術毋庸置疑 - 天天要聞

武漢一救援隊把無人機「開發到極致」，實現「套圈」式救人，台灣同胞：技術毋庸置疑

2025年7月2日上午，在第十九屆湖北·武漢台灣周期間，第四屆「漢江灣」漢台水上救援交流活動在硚口區漢江灣上演。武漢雲豹救援隊聯合台灣苗栗縣水上救生救難協會、苗栗縣救難協會、桃園市水上救難協會，首次以完整建制展開跨海峽救援協作綜合演練。聯合救援協作綜合演練現場。圖/九派新聞上午9時，隨着信號彈升空，雲豹救...

07月02日 2756

麻省理工學院新算法可僅憑單個攝像頭控制複雜機械人系統 - 天天要聞

麻省理工學院新算法可僅憑單個攝像頭控制複雜機械人系統

Nature期刊最新發表的一項突破性研究展示了機械人控制領域的重大變革。美國麻省理工學院等機構的研究團隊開發出一種基於深度神經網絡的"視覺運動雅可比場"技術，能夠僅憑單個攝像頭控制各種複雜機械人系統，徹底擺脫了傳統建模方法的束縛。

07月02日 1315

匯聚500餘家優質廠商，第十三屆西部電博會將於7月9日開幕 - 天天要聞

匯聚500餘家優質廠商，第十三屆西部電博會將於7月9日開幕

作為西南地區電子信息行業的風向標，中國（西部）電子信息博覽會（簡稱「西部電博會」）為電子信息行業搭建全方位展示與交流平台。

07月02日 1750

夏天怕水果放壞？科學家的新發現讓保鮮期延長 - 天天要聞

夏天怕水果放壞？科學家的新發現讓保鮮期延長

每當看到新鮮葡萄滲出酒味，或是芒果表皮浮現黑斑，我們都在見證一場微觀世界的「真菌入侵」。這些看似普通的腐敗現象背後，是灰葡萄孢霉、釀酒酵母和膠孢炭疽菌等真菌的「傑作」。

07月02日 1215

弘揚科學家精神，北航教授陳虔攜人工智能遐想走進西紅門鎮 - 天天要聞

弘揚科學家精神，北航教授陳虔攜人工智能遐想走進西紅門鎮

「當AI從工具到與人類齊平，再到超越人類，我們該如何自處？」北京航空航天大學教授陳虔向在座的聽眾們拋出這一問題。這是在北京市大興區西紅門鎮人民政府禮堂舉辦的「以科學的態度認知人工智能與我們的關係——從初始到對未來的期許」弘揚科學家精神系列活動現場，陳虔為西紅門鎮政府近百位公務員帶來一場融合AI技術解析與...

07月02日 2082

江西發現奇異怪豬，不吃不喝後產下價值連城之物？專家：一文不值 - 天天要聞

江西發現奇異怪豬，不吃不喝後產下價值連城之物？專家：一文不值

信息來源於《走進科學》，央視網。突然變成百萬富翁？ 2008年8月凌晨，江西南昌縣大塘村的屠宰場早已是燈火通明。趕早把豬殺了，很快就會有商販買搶購最新鮮的豬肉，在早晨運往菜市場....

07月02日 7777

剛剛！武大宣布：成立新學院！ - 天天要聞

剛剛！武大宣布：成立新學院！

7月2日武漢大學機械人學院成立大會在該校舉行學院將從小米、宇樹、樂聚、優必選等機械人、智能製造頭部企業聘請10名產業教授培養創新拔尖人才武大機械人學院執行院長肖曉暉教授在會上介紹，新成立的機械人學院2025年將招收90名本科新生，將依託武大

07月02日 1017

位元組、快手、騰訊同時加入專利池 - 天天要聞

位元組、快手、騰訊同時加入專利池

作者：黃鶯2025年7月1日，總部位於美國的專利池管理機構Access Advance LLC宣布視頻分發專利（Video Distribution Patent，VDP）專利池的首個進展——首批被許可方和許可方名單，其中位元組跳動、快手和騰

07月02日 1062