苹果AI应用迟疑，还在思考“大模型会思考吗”

2025年06月08日22:20:12 科学 4154

用户和投资者一直对苹果在ai的动作迟缓感到不满，它既不自己研究前沿大模型，对于采纳外部模型也非常谨慎。这次wwdc会又一次跳票siri和其他重要的apple intelligence功能。

可能有一个最重要的原因，是苹果一直觉得大模型不靠谱。

苹果在自己的网站上公开了一篇论文，认为推理大模型（lrm）的思考能力，无非是幻觉。而8个月前，几乎是同一组研究员，指出了大语言模型（llm）中数学推理的局限性。

这次他们对比了lrm与llm，在同等计算预算下，他们发现：

低复杂度任务：llm反而优于lrm；

中等复杂度任务：lrm通过增加“思考”展现出优势；

高复杂度任务：两类模型均出现全面崩溃。

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

苹果研究团队并不相信大模型的基准测试，而是自己设计了一个测试环境。尤其是在编程和数学领域的基准模型，研究团队认为存在数据污染问题，即用于模型训练的数据与基准数据出现了直接或间接的重合。

这次，苹果研究团队构建了一个可控制解谜环境（controllable puzzle environments ），采用了四个智力游戏，以可控的任务评估lrm的推理能力：汉诺塔（tower of hanoi），跳棋（checker jumping），渡河（river crossing），积木世界（blocks world）。

他们发现，即便是当前最先进的lrm（例如 o3-mini、deepseek-r1、claude-3.7-sonnet-thinking），在面对不同环境下复杂度提升的问题时，依然无法形成可泛化的问题求解能力，其准确率最终在某一复杂度之后全面崩溃。

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

（说明：在不同解谜环境中，推理模型的准确率与思考 token 数量随问题复杂度的变化趋势如下：随着复杂度上升，模型最初会投入更多的思考 token，准确率则逐渐下降，直到达到某个临界点——此时推理过程崩溃，模型表现急剧下滑，且推理努力也随之减少。）

苹果团队对当前以最终准确率为主的评估方式提出了质疑，并引入中间推理过程（thinking traces），借助确定性的解谜模拟器对其进行扩展分析，发现随着问题复杂度上升，正确解答在思考轨迹中系统性地较迟出现，相比之下错误解答更早出现，这为理解lrm内部的自我纠错机制提供了量化线索。

这对激烈的推理模型竞赛是当头棒喝，当下的推理模型的训练范式可能存在着一个根本缺陷，面对真正复杂的问题，扩展定律（scaling law) 又遇到天花板了：思维 token 的使用量在超过某一复杂度后，反而呈现出反直觉的下降趋势。

这似乎再一次证明了苹果同一个研究团队在8个月前得出的结论：“我们进一步探究了这类模型数学推理能力的脆弱性，发现随着题目中语句数量的增加，其性能会显著下降。我们推测，这种性能恶化的根本原因在于：当前llms并不具备真正的逻辑推理能力，它们只是试图模仿训练数据中所观察到的推理过程。”

苹果AI应用迟疑，还在思考“大模型会思考吗” - 天天要闻

所以，大模型真的会思考吗？可能库克和苹果的研究人员还在思考这个问题。也许从中可以部分理解为什么苹果在拥抱大模型方面表现得如此谨慎。

苹果掌管软件工程的高级副总裁费德里吉（craig federighi）并不太相信人工智能。他对这项技术投入的大量资金表示“犹豫”，并且不认为这是一种“核心能力”。

mehrdad farajtabar参与了苹果上述两篇论文，这次他不客气地问道：“这些被称为“推理模型”的 o1/o3、deepseek-r1 和 claude 3.7 sonnet，真的在“思考”吗？还是说，它们只是在用更多的算力来做模式匹配而已？

科学

江西发现奇异怪猪，不吃不喝后产下价值连城之物？专家：一文不值 - 天天要闻

江西发现奇异怪猪，不吃不喝后产下价值连城之物？专家：一文不值

信息来源于《走进科学》，央视网。突然变成百万富翁？ 2008年8月凌晨，江西南昌县大塘村的屠宰场早已是灯火通明。赶早把猪杀了，很快就会有商贩买抢购最新鲜的猪肉，在早晨运往菜市场....

07月02日 7777

刚刚！武大宣布：成立新学院！ - 天天要闻

刚刚！武大宣布：成立新学院！

7月2日武汉大学机器人学院成立大会在该校举行学院将从小米、宇树、乐聚、优必选等机器人、智能制造头部企业聘请10名产业教授培养创新拔尖人才武大机器人学院执行院长肖晓晖教授在会上介绍，新成立的机器人学院2025年将招收90名本科新生，将依托武大

07月02日 1017

字节、快手、腾讯同时加入专利池 - 天天要闻

字节、快手、腾讯同时加入专利池

作者：黄莺2025年7月1日，总部位于美国的专利池管理机构Access Advance LLC宣布视频分发专利（Video Distribution Patent，VDP）专利池的首个进展——首批被许可方和许可方名单，其中字节跳动、快手和腾

07月02日 1062

论证70余年，黄河上的“超级工程”要来了？ - 天天要闻

论证70余年，黄河上的“超级工程”要来了？

什么项目值得争论70多年从上世纪50年代开始论证，前后历经七十余年，黄河黑山峡河段开发前期工作迎来最新进展—— 宁夏中卫市自然资源局近日发布《黄河黑山峡水利枢纽工程建设项目用地预审与选址意见书证前公示》（以下简称“公示”），公布了黄河黑山峡水利枢纽工程项目的拟选址位置、拟用地面积等信息。黄河流域治理长期...

07月02日 7652

华北、东北等地将有3次降雨过程中东部地区将现大范围“桑拿天” - 天天要闻

华北、东北等地将有3次降雨过程中东部地区将现大范围“桑拿天”

目前，副热带高压正主导我国雨热格局，未来三天（7月2日至4日），四川盆地至华北、东北降雨频繁，其中今天，京津冀为降雨核心区域，明天强降雨将向东北地区转移。而黄淮至华南大片区域在副热带高压的掌控下，高温天气持续发展增强，且湿度较大，闷热的桑拿

07月02日 1136

第41次南极考察有哪些惊心动魄的故事？听4位科考队员讲 - 天天要闻

第41次南极考察有哪些惊心动魄的故事？听4位科考队员讲

原标题：第四十一次南极考察队在技术创新、国际合作等方面取得新突破——破冰逐浪，向新的未知进发（弘扬科学家精神）一次卸货任务中，承担人员转运任务的“雪鹰301”直升机正在降落“雪龙2”号艉甲板。科考队员在海拔4000米的冰原上拔出手摇钻。科考

07月02日 1337

月球盖房子有望就地取材 - 天天要闻

月球盖房子有望就地取材

‍‍‍‌‍‍‌在月球盖房子，要从地球上运建材吗？长期留驻月球，饮用水也要地球“发货”、飞船“快递”吗？“不用！”活力中国调研行采访团走进位于安徽合肥的地球深空探测实验室时，记者从科研人员口中听到了令人振奋的消息。月壤3D打印系统设备。

07月02日 1947

活力中国调研行｜“上新”！合肥绘制“未来产业图谱” - 天天要闻

活力中国调研行｜“上新”！合肥绘制“未来产业图谱”

新华社合肥7月1日电题：“上新”！合肥绘制“未来产业图谱”新华社记者郭晨、班娟娟、姚远在安徽省合肥国家高新技术产业开发区，有一条孕育了数十家量子科技企业的“量子大街”。过去的10多年里，方圆几公里内，一个拥有中电信量子、本源量子、国仪量子等代表性企业的量子产业集群在此崛起，成为全国乃至全球领先的量子科...

07月02日 3147

中国人民大学－西湖大学未来人类联合研究院成立 - 天天要闻

中国人民大学－西湖大学未来人类联合研究院成立

7月1日，北京青年报记者从中国人民大学获悉，中国人民大学与西湖大学携手成立“中国人民大学－西湖大学未来人类联合研究院”，并面向全球发布“未来人类十大议题”，聚焦人类文明演进的重大挑战与突破方向，以中....

07月01日 5080

巨子生物承认检测方法有局限，华熙生物发文暗指其“伪科学” - 天天要闻

巨子生物承认检测方法有局限，华熙生物发文暗指其“伪科学”

6月30日，华熙生物在微信公众号上发布文章《推动行业进入以检测结果为宣传依据的时代》，意有所指地表示，主张免受科学检验的必定属于伪科学。文章直指，在重组胶原蛋白的测量问题中，声称没有统一的检测方法就无法准确测量，就是一种典型的“免受检验策略”，试图让自己的主张免受科学检验和公共监管。巧合的是，在此之前...

07月01日 6242