奧特曼發紅色警報，大模型走進死胡同了嗎？

分類：科技

瀏覽數：1893

2025-12-07

文：司馬秘事

編輯：司馬秘事

司的就是國際這條線；馬上追蹤熱點

秘聞背後的事；我給你說透

歡迎各位看官收看今天的【司馬秘事】

昨天OpenAI的CEO奧特曼發了份內部備忘錄，直接宣布公司進入「CodeRed」紅色警報狀態。

表面看是應付谷歌、Anthropic這兩個對手，畢竟Gemini和Claude最近勢頭太猛，但這更像OpenAI給行業遞的「求救信號」。

大語言模型現在遇到的麻煩，不是一家公司的事，是整個行業都繞不開的坎。

我跟做AI研發的朋友聊過，他說現在圈裡都在傳，訓練模型的錢越砸越多，模型也越做越大，可性能提升卻越來越少，跟以前「砸錢就漲分」的日子完全不一樣了。

OpenAI，外有競爭內有技術坎

先看外面的競爭，谷歌的Gemini3早就超過OpenAI了。

我看谷歌三季度財報的時候還挺驚訝，Gemini的月活從7月的4.5億漲到10月的6.5億，這速度比預想快多了。

Anthropic的Claude也沒閑着，企業客戶越來越多，OpenRouter的數據顯示，11月末Claude的周訪問量都到0.41億了，六周漲了17%。

但真正讓OpenAI慌的是技術上卡殼了。

半導體分析公司SemiAnalysis爆了個料，說自從2024年5月GPT-4o發佈後，OpenAI的頂尖研究員就沒完成過一次大規模預訓練。

這話啥意思？就是現在的GPT-5，根本不是全新訓練的，只是在GPT-4o基礎上修修補補，沒算真正的代際升級。

預訓練這步太關鍵了，就像給模型打基礎，得讓它學遍海量文本，懂語法、懂常識，基礎打不好，後面再怎麼調都是小修小補。

SemiAnalysis還補了一刀，說谷歌的TPU平台早就通過了預訓練測試，可OpenAI就是沒做到。

再看評分，MMLU是測模型綜合能力的權威標準，GPT-5比GPT-4就高了10%-20%。

但成本呢？Anthropic的CEO說過，現在訓練個前沿模型要10-20億美元，是去年的10倍，GPT-5成本更是GPT-4的20-30倍。

全行業，集體撞上性能天花板

OpenAI不是唯一倒霉的，整個行業都在面臨同樣的問題，以前模型更新快，性能差距也大，2024年6月的時候，LMSYS盲測里，榜首和第十名的模型差了150多分。

可到今年11月，這個差距縮到50分以內，連得分都扎堆了，MMLU-Pro測試里，頭部模型全在85%-90分之間，根本拉不開差距。

更新速度也慢了，Meta的Llama從2代到3代用了9個月，現在從3代到4代，都超15個月了，Anthropic從Claude3到4也等了11個月。

以前大家比誰先出新品，現在比誰能先突破瓶頸，為啥會這樣？有兩個繞不開的原因。

第一個是「不可約誤差」，簡單說就是語言本身有歧義。

比如「他把手機放桌上，它倒了」，這個「它」是手機還是桌子？人得看上下文猜，模型只學文本，根本搞不清。

這種誤差是語言自帶的，就算有無限算力也消不掉，當模型不犯語法錯誤後，這種誤差就成了性能提升的攔路虎。

第二個是數據問題，我朋友跟我說，GPT-4那時候幾乎把互聯網上高質量的文本都學完了，現在剩下的不是廣告軟文，就是重複內容，根本沒法用。

有些公司想省事，用AI生成的數據訓練新模型，結果出了大問題，模型會「崩潰」。

技術路，兩派吵翻該往哪走

現在AI圈分成兩派，吵得不可開交，一派是維新派，比如AI教母李飛飛和圖靈獎得主楊立昆。

谷歌DeepMind的AlphaGeometry就是個例子，靠符號推理加神經網絡，能解奧林匹克幾何題，根本不用語言模型那套。

另一派是守舊派，OpenAI和Anthropic還在堅持「規模假說」，奧特曼覺得只要模型夠大，投入夠多，智能就會「自動冒出來」。

OpenAI的首席科學家伊爾亞說「壓縮就是理解」，把全世界數據無損壓縮進模型，模型就懂世界了。

Anthropic的卡普蘭則覺得語言模型能當智能的基礎，改改訓練方法就行，還有MIT的學者出來潑冷水，說語言不是思維工具。

嬰兒不會說話也懂物理世界，聾盲人沒有語言也能思考，憑啥說語言模型能成真正的AI？這話其實挺有道理，模型學的是語言，不是思維，根本不是一回事。

破局點，不在堆規模在找對路

其實大語言模型沒走進死胡同，只是以前「堆錢堆規模」的路走不通了。

國內已經有公司在找新方向，比如騰訊今年發佈的混元T1，靠多模態數據融合，MMLU-Pro得了87.2分，速度還快，兼顧了性能和效率。

DeepSeek搞開源，讓模型適配行業數據，在專業領域反而超過了閉源模型。

政策也在幫忙，國內推了「數據共享+算力優化」，用隱私計算解決數據不夠的問題，還發算力券幫公司降成本。

這些做法都繞開了「堆規模」的坑，走了更實際的路，OpenAI拉紅色警報不是壞事，它讓整個行業明白，光靠砸錢堆參數沒用，得找對技術方向。

大語言模型不會消失，但它得在新生態里找到自己的位置，對公司來說，現在不用糾結「模型多大」，而是要想「模型能解決什麼具體問題」，畢竟，能幹活的AI，才是好AI。

世界從不平靜，司馬為您解析，今天到此為止，下期我們再見！

科技分類資訊推薦