苹果AI应用迟疑，还在思考“大模型会思考吗”

2025年06月08日22:20:12 科学 4154

用户和投资者一直对苹果在ai的动作迟缓感到不满，它既不自己研究前沿大模型，对于采纳外部模型也非常谨慎。这次wwdc会又一次跳票siri和其他重要的apple intelligence功能。

可能有一个最重要的原因，是苹果一直觉得大模型不靠谱。

苹果在自己的网站上公开了一篇论文，认为推理大模型（lrm）的思考能力，无非是幻觉。而8个月前，几乎是同一组研究员，指出了大语言模型（llm）中数学推理的局限性。

这次他们对比了lrm与llm，在同等计算预算下，他们发现：

低复杂度任务：llm反而优于lrm；

中等复杂度任务：lrm通过增加“思考”展现出优势；

高复杂度任务：两类模型均出现全面崩溃。

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

苹果研究团队并不相信大模型的基准测试，而是自己设计了一个测试环境。尤其是在编程和数学领域的基准模型，研究团队认为存在数据污染问题，即用于模型训练的数据与基准数据出现了直接或间接的重合。

这次，苹果研究团队构建了一个可控制解谜环境（controllable puzzle environments ），采用了四个智力游戏，以可控的任务评估lrm的推理能力：汉诺塔（tower of hanoi），跳棋（checker jumping），渡河（river crossing），积木世界（blocks world）。

他们发现，即便是当前最先进的lrm（例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking），在面对不同环境下复杂度提升的问题时，依然无法形成可泛化的问题求解能力，其准确率最终在某一复杂度之后全面崩溃。

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

（说明：在不同解谜环境中，推理模型的准确率与思考 token 数量随问题复杂度的变化趋势如下：随着复杂度上升，模型最初会投入更多的思考 token，准确率则逐渐下降，直到达到某个临界点——此时推理过程崩溃，模型表现急剧下滑，且推理努力也随之减少。）

苹果团队对当前以最终准确率为主的评估方式提出了质疑，并引入中间推理过程（thinking traces），借助确定性的解谜模拟器对其进行扩展分析，发现随着问题复杂度上升，正确解答在思考轨迹中系统性地较迟出现，相比之下错误解答更早出现，这为理解lrm内部的自我纠错机制提供了量化线索。

这对激烈的推理模型竞赛是当头棒喝，当下的推理模型的训练范式可能存在着一个根本缺陷，面对真正复杂的问题，扩展定律（scaling law) 又遇到天花板了：思维 token 的使用量在超过某一复杂度后，反而呈现出反直觉的下降趋势。

这似乎再一次证明了苹果同一个研究团队在8个月前得出的结论：“我们进一步探究了这类模型数学推理能力的脆弱性，发现随着题目中语句数量的增加，其性能会显著下降。我们推测，这种性能恶化的根本原因在于：当前llms并不具备真正的逻辑推理能力，它们只是试图模仿训练数据中所观察到的推理过程。”

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

所以，大模型真的会思考吗？可能库克和苹果的研究人员还在思考这个问题。也许从中可以部分理解为什么苹果在拥抱大模型方面表现得如此谨慎。

苹果掌管软件工程的高级副总裁费德里吉（craig federighi）并不太相信人工智能。他对这项技术投入的大量资金表示“犹豫”，并且不认为这是一种“核心能力”。

mehrdad farajtabar参与了苹果上述两篇论文，这次他不客气地问道：“这些被称为“推理模型”的 o1/o3、deepseek-r1 和 claude 3.7 sonnet，真的在“思考”吗？还是说，它们只是在用更多的算力来做模式匹配而已？

科学

迈威生物跃过“J曲线”转折点 - 天天要闻

迈威生物跃过“J曲线”转折点

迈威生物为爆发中的创新药BD浪潮，又添了一把火。日前，其宣布两项BD合作，与齐鲁制药就长效G-CSF产品8MW0511达成的合作（3.8亿元首付款+1.2亿元里程碑款），是本土商业化的经典双赢；而与谷歌系抗衰老巨头Calico围绕IL-11单抗9MW3811的联手（2500万美元首付款+5.71亿美元里程碑款），则彰显全球视野下的价值挖掘能力。两项...

07月02日 7647

中国石油长庆油田采油十厂决战百日推动竞赛任务落地见效 - 天天要闻

中国石油长庆油田采油十厂决战百日推动竞赛任务落地见效

“功崇惟志，业广惟勤。”2025年上半年，中国石油长庆油田采油十厂紧扣全年任务目标，以“大干100天决胜上半年”劳动竞赛为载体，全面掀起夺油上产热潮。广大干部员工迎难而上、奋勇拼搏，用汗水书写担当，用实绩回应挑战，生产效率大幅提升，安全环保平稳受控，经营业绩稳健向好，为完成全年任务目标奠定坚实基础。中国石...

07月02日 5911

武汉一救援队把无人机“开发到极致”，实现“套圈”式救人，台湾同胞：技术毋庸置疑 - 天天要闻

武汉一救援队把无人机“开发到极致”，实现“套圈”式救人，台湾同胞：技术毋庸置疑

2025年7月2日上午，在第十九届湖北·武汉台湾周期间，第四届“汉江湾”汉台水上救援交流活动在硚口区汉江湾上演。武汉云豹救援队联合台湾苗栗县水上救生救难协会、苗栗县救难协会、桃园市水上救难协会，首次以完整建制展开跨海峡救援协作综合演练。联合救援协作综合演练现场。图/九派新闻上午9时，随着信号弹升空，云豹救...

07月02日 2756

麻省理工学院新算法可仅凭单个摄像头控制复杂机器人系统 - 天天要闻

麻省理工学院新算法可仅凭单个摄像头控制复杂机器人系统

Nature期刊最新发表的一项突破性研究展示了机器人控制领域的重大变革。美国麻省理工学院等机构的研究团队开发出一种基于深度神经网络的"视觉运动雅可比场"技术，能够仅凭单个摄像头控制各种复杂机器人系统，彻底摆脱了传统建模方法的束缚。

07月02日 1315

汇聚500余家优质厂商，第十三届西部电博会将于7月9日开幕 - 天天要闻

汇聚500余家优质厂商，第十三届西部电博会将于7月9日开幕

作为西南地区电子信息行业的风向标，中国（西部）电子信息博览会（简称“西部电博会”）为电子信息行业搭建全方位展示与交流平台。

07月02日 1750

夏天怕水果放坏？科学家的新发现让保鲜期延长 - 天天要闻

夏天怕水果放坏？科学家的新发现让保鲜期延长

每当看到新鲜葡萄渗出酒味，或是芒果表皮浮现黑斑，我们都在见证一场微观世界的“真菌入侵”。这些看似普通的腐败现象背后，是灰葡萄孢霉、酿酒酵母和胶孢炭疽菌等真菌的“杰作”。

07月02日 1215

弘扬科学家精神，北航教授陈虔携人工智能遐想走进西红门镇 - 天天要闻

弘扬科学家精神，北航教授陈虔携人工智能遐想走进西红门镇

“当AI从工具到与人类齐平，再到超越人类，我们该如何自处？”北京航空航天大学教授陈虔向在座的听众们抛出这一问题。这是在北京市大兴区西红门镇人民政府礼堂举办的“以科学的态度认知人工智能与我们的关系——从初始到对未来的期许”弘扬科学家精神系列活动现场，陈虔为西红门镇政府近百位公务员带来一场融合AI技术解析与...

07月02日 2082

江西发现奇异怪猪，不吃不喝后产下价值连城之物？专家：一文不值 - 天天要闻

江西发现奇异怪猪，不吃不喝后产下价值连城之物？专家：一文不值

信息来源于《走进科学》，央视网。突然变成百万富翁？ 2008年8月凌晨，江西南昌县大塘村的屠宰场早已是灯火通明。赶早把猪杀了，很快就会有商贩买抢购最新鲜的猪肉，在早晨运往菜市场....

07月02日 7777

刚刚！武大宣布：成立新学院！ - 天天要闻

刚刚！武大宣布：成立新学院！

7月2日武汉大学机器人学院成立大会在该校举行学院将从小米、宇树、乐聚、优必选等机器人、智能制造头部企业聘请10名产业教授培养创新拔尖人才武大机器人学院执行院长肖晓晖教授在会上介绍，新成立的机器人学院2025年将招收90名本科新生，将依托武大

07月02日 1017

字节、快手、腾讯同时加入专利池 - 天天要闻

字节、快手、腾讯同时加入专利池

作者：黄莺2025年7月1日，总部位于美国的专利池管理机构Access Advance LLC宣布视频分发专利（Video Distribution Patent，VDP）专利池的首个进展——首批被许可方和许可方名单，其中字节跳动、快手和腾

07月02日 1062