奧特曼發紅色警報,大模型走進死胡同了嗎?

2025年12月07日20:02:03 科技 1893

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

文:司馬秘事

編輯:司馬秘事

司的就是國際這條線;馬上追蹤熱點

秘聞背後的事;我給你說透

歡迎各位看官收看今天的【司馬秘事】


昨天OpenAI的CEO奧特曼發了份內部備忘錄,直接宣布公司進入「CodeRed」紅色警報狀態。

表面看是應付谷歌Anthropic這兩個對手,畢竟Gemini和Claude最近勢頭太猛,但這更像OpenAI給行業遞的「求救信號」。

大語言模型現在遇到的麻煩,不是一家公司的事,是整個行業都繞不開的坎。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

我跟做AI研發的朋友聊過,他說現在圈裡都在傳,訓練模型的錢越砸越多,模型也越做越大,可性能提升卻越來越少,跟以前「砸錢就漲分」的日子完全不一樣了。

OpenAI,外有競爭內有技術坎

先看外面的競爭,谷歌的Gemini3早就超過OpenAI了。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

我看谷歌三季度財報的時候還挺驚訝,Gemini的月活從7月的4.5億漲到10月的6.5億,這速度比預想快多了。

Anthropic的Claude也沒閑著,企業客戶越來越多,OpenRouter的數據顯示,11月末Claude的周訪問量都到0.41億了,六周漲了17%。

但真正讓OpenAI慌的是技術上卡殼了。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

半導體分析公司SemiAnalysis爆了個料,說自從2024年5月GPT-4o發布後,OpenAI的頂尖研究員就沒完成過一次大規模預訓練。

這話啥意思?就是現在的GPT-5,根本不是全新訓練的,只是在GPT-4o基礎上修修補補,沒算真正的代際升級。

預訓練這步太關鍵了,就像給模型打基礎,得讓它學遍海量文本,懂語法、懂常識,基礎打不好,後面再怎麼調都是小修小補。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

SemiAnalysis還補了一刀,說谷歌的TPU平台早就通過了預訓練測試,可OpenAI就是沒做到。

再看評分,MMLU是測模型綜合能力的權威標準,GPT-5比GPT-4就高了10%-20%。

但成本呢?Anthropic的CEO說過,現在訓練個前沿模型要10-20億美元,是去年的10倍,GPT-5成本更是GPT-4的20-30倍。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

全行業,集體撞上性能天花板

OpenAI不是唯一倒霉的,整個行業都在面臨同樣的問題,以前模型更新快,性能差距也大,2024年6月的時候,LMSYS盲測里,榜首和第十名的模型差了150多分。

可到今年11月,這個差距縮到50分以內,連得分都扎堆了,MMLU-Pro測試里,頭部模型全在85%-90分之間,根本拉不開差距。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

更新速度也慢了,Meta的Llama從2代到3代用了9個月,現在從3代到4代,都超15個月了,Anthropic從Claude3到4也等了11個月。

以前大家比誰先出新品,現在比誰能先突破瓶頸,為啥會這樣?有兩個繞不開的原因。

第一個是「不可約誤差」,簡單說就是語言本身有歧義。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

比如「他把手機放桌上,它倒了」,這個「它」是手機還是桌子?人得看上下文猜,模型只學文本,根本搞不清。

這種誤差是語言自帶的,就算有無限算力也消不掉,當模型不犯語法錯誤後,這種誤差就成了性能提升的攔路虎。

第二個是數據問題,我朋友跟我說,GPT-4那時候幾乎把互聯網上高質量的文本都學完了,現在剩下的不是廣告軟文,就是重複內容,根本沒法用。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

有些公司想省事,用AI生成的數據訓練新模型,結果出了大問題,模型會「崩潰」。

技術路,兩派吵翻該往哪走

現在AI圈分成兩派,吵得不可開交,一派是維新派,比如AI教母李飛飛圖靈獎得主楊立昆

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

谷歌DeepMind的AlphaGeometry就是個例子,靠符號推理加神經網路,能解奧林匹克幾何題,根本不用語言模型那套。

另一派是守舊派,OpenAI和Anthropic還在堅持「規模假說」,奧特曼覺得只要模型夠大,投入夠多,智能就會「自動冒出來」。

OpenAI的首席科學家伊爾亞說「壓縮就是理解」,把全世界數據無損壓縮進模型,模型就懂世界了。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

Anthropic的卡普蘭則覺得語言模型能當智能的基礎,改改訓練方法就行,還有MIT的學者出來潑冷水,說語言不是思維工具。

嬰兒不會說話也懂物理世界,聾盲人沒有語言也能思考,憑啥說語言模型能成真正的AI?這話其實挺有道理,模型學的是語言,不是思維,根本不是一回事。

破局點,不在堆規模在找對路

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

其實大語言模型沒走進死胡同,只是以前「堆錢堆規模」的路走不通了。

國內已經有公司在找新方向,比如騰訊今年發布的混元T1,靠多模態數據融合,MMLU-Pro得了87.2分,速度還快,兼顧了性能和效率。

DeepSeek搞開源,讓模型適配行業數據,在專業領域反而超過了閉源模型。

奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

政策也在幫忙,國內推了「數據共享+算力優化」,用隱私計算解決數據不夠的問題,還發算力券幫公司降成本。

這些做法都繞開了「堆規模」的坑,走了更實際的路,OpenAI拉紅色警報不是壞事,它讓整個行業明白,光靠砸錢堆參數沒用,得找對技術方向。

大語言模型不會消失,但它得在新生態里找到自己的位置,對公司來說,現在不用糾結「模型多大」,而是要想「模型能解決什麼具體問題」,畢竟,能幹活的AI,才是好AI。


奧特曼發紅色警報,大模型走進死胡同了嗎? - 天天要聞

世界從不平靜,司馬為您解析,今天到此為止,下期我們再見!

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。