奥特曼发红色警报，大模型走进死胡同了吗？

2025年12月07日20:02:03 科技 1893

文：司马秘事

编辑：司马秘事

司的就是国际这条线；马上追踪热点

秘闻背后的事；我给你说透

欢迎各位看官收看今天的【司马秘事】

昨天OpenAI的CEO奥特曼发了份内部备忘录，直接宣布公司进入“CodeRed”红色警报状态。

表面看是应付谷歌、Anthropic这两个对手，毕竟Gemini和Claude最近势头太猛，但这更像OpenAI给行业递的“求救信号”。

大语言模型现在遇到的麻烦，不是一家公司的事，是整个行业都绕不开的坎。

我跟做AI研发的朋友聊过，他说现在圈里都在传，训练模型的钱越砸越多，模型也越做越大，可性能提升却越来越少，跟以前“砸钱就涨分”的日子完全不一样了。

OpenAI，外有竞争内有技术坎

先看外面的竞争，谷歌的Gemini3早就超过OpenAI了。

我看谷歌三季度财报的时候还挺惊讶，Gemini的月活从7月的4.5亿涨到10月的6.5亿，这速度比预想快多了。

Anthropic的Claude也没闲着，企业客户越来越多，OpenRouter的数据显示，11月末Claude的周访问量都到0.41亿了，六周涨了17%。

但真正让OpenAI慌的是技术上卡壳了。

半导体分析公司SemiAnalysis爆了个料，说自从2024年5月GPT-4o发布后，OpenAI的顶尖研究员就没完成过一次大规模预训练。

这话啥意思？就是现在的GPT-5，根本不是全新训练的，只是在GPT-4o基础上修修补补，没算真正的代际升级。

预训练这步太关键了，就像给模型打基础，得让它学遍海量文本，懂语法、懂常识，基础打不好，后面再怎么调都是小修小补。

SemiAnalysis还补了一刀，说谷歌的TPU平台早就通过了预训练测试，可OpenAI就是没做到。

再看评分，MMLU是测模型综合能力的权威标准，GPT-5比GPT-4就高了10%-20%。

但成本呢？Anthropic的CEO说过，现在训练个前沿模型要10-20亿美元，是去年的10倍，GPT-5成本更是GPT-4的20-30倍。

全行业，集体撞上性能天花板

OpenAI不是唯一倒霉的，整个行业都在面临同样的问题，以前模型更新快，性能差距也大，2024年6月的时候，LMSYS盲测里，榜首和第十名的模型差了150多分。

可到今年11月，这个差距缩到50分以内，连得分都扎堆了，MMLU-Pro测试里，头部模型全在85%-90分之间，根本拉不开差距。

更新速度也慢了，Meta的Llama从2代到3代用了9个月，现在从3代到4代，都超15个月了，Anthropic从Claude3到4也等了11个月。

以前大家比谁先出新品，现在比谁能先突破瓶颈，为啥会这样？有两个绕不开的原因。

第一个是“不可约误差”，简单说就是语言本身有歧义。

比如“他把手机放桌上，它倒了”，这个“它”是手机还是桌子？人得看上下文猜，模型只学文本，根本搞不清。

这种误差是语言自带的，就算有无限算力也消不掉，当模型不犯语法错误后，这种误差就成了性能提升的拦路虎。

第二个是数据问题，我朋友跟我说，GPT-4那时候几乎把互联网上高质量的文本都学完了，现在剩下的不是广告软文，就是重复内容，根本没法用。

有些公司想省事，用AI生成的数据训练新模型，结果出了大问题，模型会“崩溃”。

技术路，两派吵翻该往哪走

现在AI圈分成两派，吵得不可开交，一派是维新派，比如AI教母李飞飞和图灵奖得主杨立昆。

谷歌DeepMind的AlphaGeometry就是个例子，靠符号推理加神经网络，能解奥林匹克几何题，根本不用语言模型那套。

另一派是守旧派，OpenAI和Anthropic还在坚持“规模假说”，奥特曼觉得只要模型够大，投入够多，智能就会“自动冒出来”。

OpenAI的首席科学家伊尔亚说“压缩就是理解”，把全世界数据无损压缩进模型，模型就懂世界了。

Anthropic的卡普兰则觉得语言模型能当智能的基础，改改训练方法就行，还有MIT的学者出来泼冷水，说语言不是思维工具。

婴儿不会说话也懂物理世界，聋盲人没有语言也能思考，凭啥说语言模型能成真正的AI？这话其实挺有道理，模型学的是语言，不是思维，根本不是一回事。

破局点，不在堆规模在找对路

其实大语言模型没走进死胡同，只是以前“堆钱堆规模”的路走不通了。

国内已经有公司在找新方向，比如腾讯今年发布的混元T1，靠多模态数据融合，MMLU-Pro得了87.2分，速度还快，兼顾了性能和效率。

DeepSeek搞开源，让模型适配行业数据，在专业领域反而超过了闭源模型。

政策也在帮忙，国内推了“数据共享+算力优化”，用隐私计算解决数据不够的问题，还发算力券帮公司降成本。

这些做法都绕开了“堆规模”的坑，走了更实际的路，OpenAI拉红色警报不是坏事，它让整个行业明白，光靠砸钱堆参数没用，得找对技术方向。

大语言模型不会消失，但它得在新生态里找到自己的位置，对公司来说，现在不用纠结“模型多大”，而是要想“模型能解决什么具体问题”，毕竟，能干活的AI，才是好AI。

世界从不平静，司马为您解析，今天到此为止，下期我们再见！

科技

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商

图源：蓝鲸科技记者拍摄蓝鲸新闻5月3日讯(记者翟智超)按照往年惯例，五一劳动节是手机厂商集中促销、冲量的关键节点，但今年这场例行的“节前大促”却未能点燃消费热情。 5月2日下....

05月03日 7401

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课

4月29日，在武汉市武钢三中的报告厅里，一场关于人工智能的科普报告正在进行。台上，中国工程院院士、中南大学教授桂卫华以“大模型与工业应用”为题，为高一学生揭开AI大模型的神秘面纱。桂卫华，中国工程院院士，中南大学教授、博士生导师。

05月03日 1895

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV，第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴，以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级，兼顾商务体面与家庭舒适，为西北高端用户带来一站式全能出行解决方案。

05月03日 2042

采购禁入！科华数据材料造假被拒门外

本报（chinatimes.net.cn）记者胡雅文北京报道这家赶上AI算力风口的公司，因投标材料造假，被相关采购方列入禁入名单两年，其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告，明确驳回科华数据股份有限公司（下称“科华数据”，002335.SZ）此前提交的复议申请。早在一年前，科华数据已被认定在“信息通信枢纽...

05月03日 9437