蘋果AI應用遲疑,還在思考「大模型會思考嗎」

2025年06月08日22:20:12 科學 4154


用戶和投資者一直對蘋果在ai的動作遲緩感到不滿,它既不自己研究前沿大模型,對於採納外部模型也非常謹慎。這次wwdc會又一次跳票siri和其他重要的apple intelligence功能。

可能有一個最重要的原因,是蘋果一直覺得大模型不靠譜。

蘋果在自己的網站上公開了一篇論文,認為推理大模型(lrm)的思考能力,無非是幻覺。而8個月前,幾乎是同一組研究員,指出了大語言模型(llm)中數學推理的局限性。

這次他們對比了lrm與llm,在同等計算預算下,他們發現:

低複雜度任務:llm反而優於lrm;

中等複雜度任務:lrm通過增加「思考」展現出優勢;

高複雜度任務:兩類模型均出現全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

蘋果研究團隊並不相信大模型的基準測試,而是自己設計了一個測試環境。尤其是在編程和數學領域的基準模型,研究團隊認為存在數據污染問題,即用於模型訓練的數據與基準數據出現了直接或間接的重合。

這次,蘋果研究團隊構建了一個可控制解謎環境 (controllable puzzle environments ),採用了四個智力遊戲,以可控的任務評估lrm的推理能力:漢諾塔(tower of hanoi) ,跳棋(checker jumping) ,渡河(river crossing) ,積木世界(blocks world) 。

他們發現,即便是當前最先進的lrm(例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking),在面對不同環境下複雜度提升的問題時,依然無法形成可泛化的問題求解能力,其準確率最終在某一複雜度之後全面崩潰。

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

(說明:在不同解謎環境中,推理模型的準確率與思考 token 數量隨問題複雜度的變化趨勢如下:隨着複雜度上升,模型最初會投入更多的思考 token,準確率則逐漸下降,直到達到某個臨界點——此時推理過程崩潰,模型表現急劇下滑,且推理努力也隨之減少。)

蘋果團隊對當前以最終準確率為主的評估方式提出了質疑,並引入中間推理過程(thinking traces),藉助確定性的解謎模擬器對其進行擴展分析,發現隨着問題複雜度上升,正確解答在思考軌跡中系統性地較遲出現,相比之下錯誤解答更早出現,這為理解lrm內部的自我糾錯機制提供了量化線索。

這對激烈的推理模型競賽是當頭棒喝,當下的推理模型的訓練範式可能存在着一個根本缺陷,面對真正複雜的問題,擴展定律 (scaling law) 又遇到天花板了:思維 token 的使用量在超過某一複雜度後,反而呈現出反直覺的下降趨勢。

這似乎再一次證明了蘋果同一個研究團隊在8個月前得出的結論:「我們進一步探究了這類模型數學推理能力的脆弱性,發現隨着題目中語句數量的增加,其性能會顯著下降。我們推測,這種性能惡化的根本原因在於:當前llms並不具備真正的邏輯推理能力,它們只是試圖模仿訓練數據中所觀察到的推理過程。」

蘋果AI應用遲疑,還在思考「大模型會思考嗎」 - 天天要聞

所以,大模型真的會思考嗎?可能庫克和蘋果的研究人員還在思考這個問題。也許從中可以部分理解為什麼蘋果在擁抱大模型方面表現得如此謹慎。

蘋果掌管軟件工程的高級副總裁費德里吉(craig federighi)並不太相信人工智能。他對這項技術投入的大量資金表示「猶豫」,並且不認為這是一種「核心能力」。

mehrdad farajtabar參與了蘋果上述兩篇論文,這次他不客氣地問道:「這些被稱為「推理模型」的 o1/o3、deepseek-r1 和 claude 3.7 sonnet,真的在「思考」嗎?還是說,它們只是在用更多的算力來做模式匹配而已?



科學分類資訊推薦

弘揚科學家精神,北航教授陳虔攜人工智能遐想走進西紅門鎮 - 天天要聞

弘揚科學家精神,北航教授陳虔攜人工智能遐想走進西紅門鎮

「當AI從工具到與人類齊平,再到超越人類,我們該如何自處?」北京航空航天大學教授陳虔向在座的聽眾們拋出這一問題。這是在北京市大興區西紅門鎮人民政府禮堂舉辦的「以科學的態度認知人工智能與我們的關係——從初始到對未來的期許」弘揚科學家精神系列活動現場,陳虔為西紅門鎮政府近百位公務員帶來一場融合AI技術解析與...
剛剛!武大宣布:成立新學院! - 天天要聞

剛剛!武大宣布:成立新學院!

7月2日武漢大學機械人學院成立大會在該校舉行學院將從小米、宇樹、樂聚、優必選等機械人、智能製造頭部企業聘請10名產業教授培養創新拔尖人才武大機械人學院執行院長肖曉暉教授在會上介紹,新成立的機械人學院2025年將招收90名本科新生,將依託武大
位元組、快手、騰訊同時加入專利池 - 天天要聞

位元組、快手、騰訊同時加入專利池

作者:黃鶯2025年7月1日,總部位於美國的專利池管理機構Access Advance LLC宣布視頻分發專利(Video Distribution Patent,VDP)專利池的首個進展——首批被許可方和許可方名單,其中位元組跳動、快手和騰
論證70餘年,黃河上的「超級工程」要來了? - 天天要聞

論證70餘年,黃河上的「超級工程」要來了?

什麼項目值得爭論70多年從上世紀50年代開始論證,前後歷經七十餘年,黃河黑山峽河段開發前期工作迎來最新進展—— 寧夏中衛市自然資源局近日發佈《黃河黑山峽水利樞紐工程建設項目用地預審與選址意見書證前公示》(以下簡稱「公示」),公布了黃河黑山峽水利樞紐工程項目的擬選址位置、擬用地面積等信息。 黃河流域治理長期...
第41次南極考察有哪些驚心動魄的故事?聽4位科考隊員講 - 天天要聞

第41次南極考察有哪些驚心動魄的故事?聽4位科考隊員講

原標題:第四十一次南極考察隊在技術創新、國際合作等方面取得新突破——破冰逐浪,向新的未知進發(弘揚科學家精神)一次卸貨任務中,承擔人員轉運任務的「雪鷹301」直升機正在降落「雪龍2」號艉甲板。科考隊員在海拔4000米的冰原上拔出手搖鑽。科考
月球蓋房子有望就地取材 - 天天要聞

月球蓋房子有望就地取材

‍‍‍‌‍‍‌在月球蓋房子,要從地球上運建材嗎?長期留駐月球,飲用水也要地球「發貨」、飛船「快遞」嗎?「不用!」活力中國調研行採訪團走進位於安徽合肥的地球深空探測實驗室時,記者從科研人員口中聽到了令人振奮的消息。月壤3D打印系統設備。
活力中國調研行|「上新」!合肥繪製「未來產業圖譜」 - 天天要聞

活力中國調研行|「上新」!合肥繪製「未來產業圖譜」

新華社合肥7月1日電 題:「上新」!合肥繪製「未來產業圖譜」新華社記者郭晨、班娟娟、姚遠在安徽省合肥國家高新技術產業開發區,有一條孕育了數十家量子科技企業的「量子大街」。過去的10多年裡,方圓幾公里內,一個擁有中電信量子、本源量子、國儀量子等代表性企業的量子產業集群在此崛起,成為全國乃至全球領先的量子科...
中國人民大學-西湖大學未來人類聯合研究院成立 - 天天要聞

中國人民大學-西湖大學未來人類聯合研究院成立

7月1日,北京青年報記者從中國人民大學獲悉,中國人民大學與西湖大學攜手成立「中國人民大學-西湖大學未來人類聯合研究院」,並面向全球發佈「未來人類十大議題」,聚焦人類文明演進的重大挑戰與突破方向,以中....