奧特曼發紅色警報，大模型走進死胡同了嗎？

2025年12月07日20:02:03 科技 1893

文：司馬秘事

編輯：司馬秘事

司的就是國際這條線；馬上追蹤熱點

秘聞背後的事；我給你說透

歡迎各位看官收看今天的【司馬秘事】

昨天OpenAI的CEO奧特曼發了份內部備忘錄，直接宣布公司進入「CodeRed」紅色警報狀態。

表面看是應付谷歌、Anthropic這兩個對手，畢竟Gemini和Claude最近勢頭太猛，但這更像OpenAI給行業遞的「求救信號」。

大語言模型現在遇到的麻煩，不是一家公司的事，是整個行業都繞不開的坎。

我跟做AI研發的朋友聊過，他說現在圈裡都在傳，訓練模型的錢越砸越多，模型也越做越大，可性能提升卻越來越少，跟以前「砸錢就漲分」的日子完全不一樣了。

OpenAI，外有競爭內有技術坎

先看外面的競爭，谷歌的Gemini3早就超過OpenAI了。

我看谷歌三季度財報的時候還挺驚訝，Gemini的月活從7月的4.5億漲到10月的6.5億，這速度比預想快多了。

Anthropic的Claude也沒閑著，企業客戶越來越多，OpenRouter的數據顯示，11月末Claude的周訪問量都到0.41億了，六周漲了17%。

但真正讓OpenAI慌的是技術上卡殼了。

半導體分析公司SemiAnalysis爆了個料，說自從2024年5月GPT-4o發布後，OpenAI的頂尖研究員就沒完成過一次大規模預訓練。

這話啥意思？就是現在的GPT-5，根本不是全新訓練的，只是在GPT-4o基礎上修修補補，沒算真正的代際升級。

預訓練這步太關鍵了，就像給模型打基礎，得讓它學遍海量文本，懂語法、懂常識，基礎打不好，後面再怎麼調都是小修小補。

SemiAnalysis還補了一刀，說谷歌的TPU平台早就通過了預訓練測試，可OpenAI就是沒做到。

再看評分，MMLU是測模型綜合能力的權威標準，GPT-5比GPT-4就高了10%-20%。

但成本呢？Anthropic的CEO說過，現在訓練個前沿模型要10-20億美元，是去年的10倍，GPT-5成本更是GPT-4的20-30倍。

全行業，集體撞上性能天花板

OpenAI不是唯一倒霉的，整個行業都在面臨同樣的問題，以前模型更新快，性能差距也大，2024年6月的時候，LMSYS盲測里，榜首和第十名的模型差了150多分。

可到今年11月，這個差距縮到50分以內，連得分都扎堆了，MMLU-Pro測試里，頭部模型全在85%-90分之間，根本拉不開差距。

更新速度也慢了，Meta的Llama從2代到3代用了9個月，現在從3代到4代，都超15個月了，Anthropic從Claude3到4也等了11個月。

以前大家比誰先出新品，現在比誰能先突破瓶頸，為啥會這樣？有兩個繞不開的原因。

第一個是「不可約誤差」，簡單說就是語言本身有歧義。

比如「他把手機放桌上，它倒了」，這個「它」是手機還是桌子？人得看上下文猜，模型只學文本，根本搞不清。

這種誤差是語言自帶的，就算有無限算力也消不掉，當模型不犯語法錯誤後，這種誤差就成了性能提升的攔路虎。

第二個是數據問題，我朋友跟我說，GPT-4那時候幾乎把互聯網上高質量的文本都學完了，現在剩下的不是廣告軟文，就是重複內容，根本沒法用。

有些公司想省事，用AI生成的數據訓練新模型，結果出了大問題，模型會「崩潰」。

技術路，兩派吵翻該往哪走

現在AI圈分成兩派，吵得不可開交，一派是維新派，比如AI教母李飛飛和圖靈獎得主楊立昆。

谷歌DeepMind的AlphaGeometry就是個例子，靠符號推理加神經網路，能解奧林匹克幾何題，根本不用語言模型那套。

另一派是守舊派，OpenAI和Anthropic還在堅持「規模假說」，奧特曼覺得只要模型夠大，投入夠多，智能就會「自動冒出來」。

OpenAI的首席科學家伊爾亞說「壓縮就是理解」，把全世界數據無損壓縮進模型，模型就懂世界了。

Anthropic的卡普蘭則覺得語言模型能當智能的基礎，改改訓練方法就行，還有MIT的學者出來潑冷水，說語言不是思維工具。

嬰兒不會說話也懂物理世界，聾盲人沒有語言也能思考，憑啥說語言模型能成真正的AI？這話其實挺有道理，模型學的是語言，不是思維，根本不是一回事。

破局點，不在堆規模在找對路

其實大語言模型沒走進死胡同，只是以前「堆錢堆規模」的路走不通了。

國內已經有公司在找新方向，比如騰訊今年發布的混元T1，靠多模態數據融合，MMLU-Pro得了87.2分，速度還快，兼顧了性能和效率。

DeepSeek搞開源，讓模型適配行業數據，在專業領域反而超過了閉源模型。

政策也在幫忙，國內推了「數據共享+算力優化」，用隱私計算解決數據不夠的問題，還發算力券幫公司降成本。

這些做法都繞開了「堆規模」的坑，走了更實際的路，OpenAI拉紅色警報不是壞事，它讓整個行業明白，光靠砸錢堆參數沒用，得找對技術方向。

大語言模型不會消失，但它得在新生態里找到自己的位置，對公司來說，現在不用糾結「模型多大」，而是要想「模型能解決什麼具體問題」，畢竟，能幹活的AI，才是好AI。

世界從不平靜，司馬為您解析，今天到此為止，下期我們再見！

科技

漲價壓不住、補貼夠不著，這個五一6000元以上機型難住手機經銷商

圖源：藍鯨科技記者拍攝藍鯨新聞5月3日訊(記者翟智超)按照往年慣例，五一勞動節是手機廠商集中促銷、衝量的關鍵節點，但今年這場例行的「節前大促」卻未能點燃消費熱情。 5月2日下....

05月03日 7401

AI能否超越人類？中南大學院士，走進武鋼三中，開講「硬核」AI課

4月29日，在武漢市武鋼三中的報告廳里，一場關於人工智慧的科普報告正在進行。台上，中國工程院院士、中南大學教授桂衛華以「大模型與工業應用」為題，為高一學生揭開AI大模型的神秘面紗。桂衛華，中國工程院院士，中南大學教授、博士生導師。

05月03日 1895

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV，第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊，以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級，兼顧商務體面與家庭舒適，為西北高端用戶帶來一站式全能出行解決方案。

05月03日 2042

採購禁入！科華數據材料造假被拒門外

本報（chinatimes.net.cn）記者胡雅文北京報道這家趕上AI算力風口的公司，因投標材料造假，被相關採購方列入禁入名單兩年，其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告，明確駁回科華數據股份有限公司（下稱「科華數據」，002335.SZ）此前提交的複議申請。早在一年前，科華數據已被認定在「信息通信樞紐...

05月03日 9437