DeepSeek不需要永遠強，它只需證明這條路走得通

2026年04月27日23:20:14 時尚 8895

本文來自微信公眾號：最話 funtalk，作者：林書，編輯：劉宇翔，題圖來自：視覺中國

才發布沒兩天，deepseek就大降價。

4月25日晚，deepseek宣布對v4-pro模型api開啟限時2.5折價格優惠。26日晚，deepseek又宣布v4全系列api服務的輸入緩存命中價格降至原有價格的1/10。其中，pro模型在今年5月5日前疊加2.5折限時優惠。最新調價後，deepseek-v4-flash每百萬tokens輸入緩存命中價格為0.02元，deepseek-v4-pro為0.025元。

這一價格不但比國外大模型，就是比國內其他大模型都有很大價格優勢。在deepseek首次官宣降價的第二天，deepseek-v4-flash的調用量為814億token，較前日環比增長62.2%；deepseek-v4-pro的調用量為96億token。

雖然，完成整個任務還涉及到任務類型、模型效率、推理長度、模型輸出token數等因素，最終賬單不僅取決於輸入價格，但大降價後，開發者們仍有望用v4跑通商業模式。

難怪有人說，「deepseek歸來，梁文鋒殺瘋了。」

在v4發布前的一年多里，這家曾讓矽谷側目的公司，在絕大多數時間裡是自我隱匿的，外界只能通過它發布的論文來推測其進度。期間，deepseek團隊成員的不斷流失，至少5名核心研發成員確認離職：第一代大模型核心作者王炳宣去了騰訊，v3核心貢獻者羅福莉被雷軍以千萬年薪挖走，r1核心作者郭達雅轉投位元組跳動，多模態核心研究員阮翀加盟了自動駕駛公司元戎啟行。

同時，從2025年1月r1爆紅到2026年4月v4發布，deepseek整整15個月沒有發布大模型新版本。同期，openai連推gpt-4.5、gpt-5和多個推理變體，anthropic迭代了三代claude，位元組豆包月活沖至3.31億，智譜和minimax也陸續發布了glm-5和mnimax-2.7等新一代模型。

這「空白」的15個月，相當於deepseek在全球大模型競賽中隱匿了一個代際。而今，deepseek v4從地平線的遠方歸來，最終掀開了面紗。

從性能上看，在世界知識、推理以及agent能力方面，deepseek-v4均實現國內與開源領域的領先，甚至接近了claude-0pus-4.6等頂尖大模型。

在agentic coding 評測中，v4-pro 已達到當前開源模型最佳水平，並在其他 agent 相關評測中同樣表現優異。

在架構層面，v4完成了三重關鍵突破：一是首創csa+hca混合注意力機制，通過雙重壓縮將長上下文計算量降低73%、顯存佔用減少90%，讓百萬上下文不再是昂貴的附加功能，而是默認基礎設施；二是引入mhc流形約束超連接，以不到7%的微小開銷解決了超深網路的信號衰減難題；三是全面切換至muon優化器，在訓練效率和收斂穩定性上實現了代際躍升。

這樣的突破，讓deepseek終究不負眾望，但此次v4最讓人期待的重要突破是對國產算力的適配，將底層代碼全面遷移至華為的cann生態，讓v4的推理能運行在昇騰950pr晶元。

這需要經歷一次艱難的適配過程，可以看作是國產ai的「探月工程」，需要從deepseek到華為再到半導體設備廠商等整個鏈條的配合。

這不是一個輕鬆的技術決策，這是一場賭上公司乃至整個國產大模型業界未來命運的架構豪賭。

而理解這場豪賭，需要先看清一個正在吞噬整個ai行業的結構性困境。

必然與偶然

2026年的ai行業，正在經歷一場教科書級別的傑文斯悖論。

1865年，英國經濟學家威廉·傑文斯觀察到一個反直覺現象：蒸汽機的效率越高，英國的煤炭消耗總量反而越大。效率提升不會減少資源消耗，反而會因為使用門檻降低而刺激更大的需求。160年後，同樣的劇情正在ai推理算力上重演。

根據清華大學最新發布的《token經濟學全景報告》，過去三年，模型推理成本下降了280倍，但企業的ai總支出反而增長了2.4倍。

同樣地，36氪對企業支出的調查統計也顯示：ai推理成本在18個月內下跌超過80%，但中國三大雲廠商卻在同一周宣布漲價。越便宜，燒得越凶。推理成本變得愈發昂貴，這是整個行業的結構性宿命。

最先被這個宿命擊中的，是矽谷的標杆企業anthropic。

2026年，anthropic僅推理成本一項預計就將達到141億美元，比2025年增長68%。公司2025年全年現金消耗約85億美元，2026年預計全年虧損140億。ceo dario amodei在播客中說了一句讓整個行業倒吸冷氣的話：「如果我的收入無法達到1萬億美元……一旦我購買了那麼多的算力，地球上沒有任何力量能阻止我破產。」

這是行業的「大必然」——使用成本邊際降低，需求快速上升，推理總算力需求會快速反噬ai企業的利潤，沒有人能倖免。

而在這個大必然之下，出現了一個「小偶然」。

3月初，用戶發現claude opus 4.6的性能出現了明顯下降。編程能力斷崖式滑坡，推理深度崩塌67%，第三方測試排名從前2跌至第7。但token消耗反而增加了——降智的同時還在變相漲價。

anthropic官方的解釋是「自適應思考模式優化」，但業界心知肚明：這是算力告急的徵兆。

此前anthropicceo dario amodei在自己的公開播客採訪表示，到年底，公司需要超過5gw的算力才能滿足推理和訓練需求，但因為此前採購過於保守，公司已經面臨「不得不接受更高價格」的局面。

這場算力危機，並不只是anthropic一家的噩夢。

同期的openai同樣焦頭爛額。gpu租賃價格在60天內暴漲48%，英偉達blackwell晶元供應全面告急；2026年美國原計划上線的ai數據中心，有將近一半因為電網瓶頸和建設延期被推遲或取消，形成了高達7gw的算力缺口。

但需要指出的是，這樣的算力「短缺」其實是一種「貴族的飢餓」——矽谷目前仍然掌握著全球最大的算力池，在絕對算力上碾壓中國，只是這個池子，現在暫時填不滿它們agi野心的胃口。

但儘管如此，v4仍然獲得了一個難得的突圍「窗口期」：那就是在矽谷巨頭算力高攀不下時，從成本結構上，對其實施「突襲」。

國產算力的「突襲」

可能有人會問：這樣的「突襲」，究竟意味著什麼？是指v4趁anthropic算力短缺、模型降智之時，以較低成本殺入編程領域，實現對開發者群體的搶佔嗎？

很遺憾，這樣的想像在現實中並不成立。

說實話，v4發布後，筆者第一時間與技術社區的開發者進行了討論，但相當一部分開發者表示，即使v4在價格上，與opus相比有較大優勢，他們也不會將其當成實際工作中的首選。

為什麼？因為在一線開發者和程序員看來，編程工具，往往只有最優，沒有次優。甚至可以直接說，在ai coding領域，第一名會贏家通吃。

根據某一線開發者反饋，實際用的時候，國產模型便宜的那點錢，在多輪出錯的場景下，其實貴的要死，開發者使用opus或codex交互，能實現一遍過，成本可能是1美元，而某些國內模型，可能需要5輪才過，成本是2美元。

如果v4在編程和複雜推理上無法匹敵opus的巔峰狀態，多數人不會輕易切換。這是現實，不必迴避。

因此，真正能讓v4實現「突襲」的，可能是另一個戰場。

此次v4發布，除了百萬上下文、全棧國產化算力適配（如華為昇騰、寒武紀等）、以及混合注意力架構（csa + hca）與流形學習優化等底層技術創新之外，更重要的升級，就是deepseek在agent方向上的突破。

其在agentic coding評測中成為開源最佳，內部使用體驗已優於sonnet 4.5，交付質量接近opus 4.6非思考模式，並針對claude code、openclaw、codebuddy等主流agent框架做了專項優化，明確將自身定位為agent基礎設施。

而agent能力，之所以當下變得如此重要，是因為目前的ai競爭，已經進入到了一個新階段。

2026年第一季度，一個數字震動了整個ai行業：中國大模型token日均調用量首次超越美國。國家數據局的曲線近乎垂直：從2024年初的約1000億，到2025年中突破30萬億，到2026年2月達到180萬億。兩年漲了1800倍。

而驅動這最後一段最陡峭增長的，恰恰是openclaw生態的高頻調用需求。

然而，就在這關鍵的檔口，anthropic卻主動將大量中低端用戶「推向」了中國。

當openclaw在全球擴散後，anthropic很快發現一個問題：一個每月付49美元claude max訂閱費的用戶，如果用openclaw跑一個7×24小時的自主agent實例，消耗的算力相當於幾百個普通對話用戶一個月的總量。

訂閱制定價根本無法在agent時代維持盈利。於是anthropic宣布：通過個人訂閱賬號的oauth令牌接入第三方工具，屬於違規行為，發現即封號，無緩衝期。

之後，中國模型的調用量開始在agent方向持續瘋漲。

根據openrouter平台2026年4月第一周的最新統計數據顯示，中國ai大模型周調用量高達12.96萬億token，連續五周超越美國。

這就是agent時代競爭維度的切換：在對話式ai時代，模型的質量上限決定一切；在agent時代，成本、穩定性、對高頻調用的支持程度，首次跑到了質量前面。

這個維度的切換，恰好是中國ai的優勢區間。

所以這場「突襲」的實質是：deepseek v4這類中國ai，以不俗的性能+低廉的國產算力，在agent的中間層場景里，用成本和穩定性切走了一塊原本屬於他們的蛋糕。

這樣的不對稱優勢，就是規則轉換期的機會窗口。

杯子壁的高度

如果按照某種模型迭代的推演邏輯，在未來，隨著國產模型不斷地迭代、進步，在agent這個賽道上，國產大模型的能力，最終會達到大多數常規任務的上限，畢竟，常規任務就像一隻容量有限的「杯子」，往裡倒再多的智能，最終的結果也只能是「溢出」。

到了那時，在agent場景下，性能與opus已無太大區別的國產ai，將通過國產算力的低成本，取得進一步優勢；

昇騰950pr定價7萬元，英偉達同級別h200在中國市場報價高達25萬元，這相當於是便宜了三分之二的價格。

然而，現實終歸是複雜的、有灰度的，真實情況也許遠比這更詭譎。

在anthropic自己發布的《2026 agentic coding trends report》中，其將現在的agent任務分成了三層：

底層（高頻、低風險）：代碼補全、單元測試生成、文檔注釋、格式規範化、簡單bug修復。這類任務占企業agent調用量的約65%；

中層（中頻、中風險）：跨文件重構、api集成、資料庫查詢優化、報告生成、合同條款提取。占約28%；

頂層（低頻、高風險）：生產級系統架構決策、安全漏洞審計、複雜財務建模、多步驟法律合規分析。占約7%；

底層那65%，「杯子溢出」論完全成立。代碼補全到了正確就是正確，你用opus 4.7還是用deepseek v4，最終的單元測試通不通過是客觀事實，沒有「更通過」這個說法。

但頂層那7%，才是真正拉開差距的地方。

swe-bench pro是目前最接近真實生產環境的代碼基準——它用的是真實企業代碼庫里的真實工單，而非精心設計的題目。

而在這個區間，anthropic最新的claude opus 4.7已經達到了 64.3%的水準，而國產模型在該區間的差距被放大到6-12個百分點。

這6-12個百分點，就是「杯子壁」的高度。

然而，anthropic自己也沒有解決「簡單任務滿分、複雜任務崩塌」的問題。目前在swe-bench pro測試集上，還沒有模型能夠突破60%的區間。

是的，在真實場景下，模型之間的差距，遠不止是「填更高的杯子」那麼簡單。

因為就現狀來看，anthropic沒有在追更高的任務，而是在把同一層任務做得更深、更可靠、更難以替代。

例如其門下的claude code channels，把同樣的高價值agent能力，從ide延伸到discord和telegram，讓非技術團隊也能用——背後的思路，是用可靠性和深度集成，不斷抬高企業的切換成本。

對v4這類後起之秀來說，這反而是比「換杯子」更危險的競爭策略——因為後者可以被追趕，前者構建的是一堵越來越厚的牆，而不是一個越來越高的桿。

鯰魚的使命

此次v4的發布，可以說精準地踩中了「天時地利人和」的每一步。

當openai、anthropic等矽谷巨頭紛紛面臨算力短缺，而老黃的地位也在被谷歌的第七代tpu、亞馬遜大規模上量的trainium 3，甚至特斯拉自建晶圓廠等多元力量挑戰的當下，v4恰逢其時地挾國產算力殺出，就像一個衝鋒的尖兵，趁敵軍陣腳混亂的時刻，突破了重重圍困，殺出了一條生路。

但實事求是地說，這樣的「突襲」，時間窗口是有限的，前景也不見得完全明朗。

那照這麼看，v4此次發布的歷史使命，究竟是什麼？

答案或許是：v4真正的歷史使命，從來就不是超越或打敗opus這樣的怪物，而是當一條永遠不安分的鯰魚。通過一次次範式、演算法和架構上的創新，攪動整個國內ai行業。

而在這一次次攪動中，中國的ai企業，能從那些「大廠思維」看不到的角落裡汲取靈感，不斷進行著進化與蛻變。

kimi k2.6就是一個鮮活的例子。這款基於1萬億總參數、32b激活參數的moe架構模型，在livecodebench基準測試中取得了85%的高分，多agent並發不限流，23個agent同時運行仍能穩定完成開發全流程。而它的架構思路，很大程度上受到了deepseek此前在moe和推理優化方面的啟發。

這就是鯰魚效應的傳導鏈條：deepseek的架構創新，倒逼月之暗面、智譜、minimax跟進優化；這些公司的競爭，又反過來推高了整個國產模型生態的水位線。不是某一條魚在游，是整個池子的水被攪活了。

而deepseek-v4最新的刺激是它在公告標題里寫的「邁入百萬上下文普惠時代」。業界人士博主玄感x介紹，v4戲劇性地把百萬token上下文的kv cache降低到了傳統方案的2%。v4在訓練時就早早地開始擴展上下文長度，訓練數據量和v3比翻倍，還特別重視長文檔整理，帶來了更原生更強的長上下文性能。

在百萬token測評項的榜單里，deepseek-v4落後於opus 4.6，但超越了gemini 3.1。該人士認為v4的核心優化是csa和hca兩種attention機制，csa負責抓重點，把100萬token的kv cache壓縮成25萬條，再挑出最有用的部分計算attention；hca負責全局，把100萬token壓成7800條後做完整attention。兩種機制交替，使得v4-pro推理計算量比v3.2降低到27%，kv cache降低到10%；輕量版v4-flash更誇張，計算量10%，kv cache僅7%，且性能全面提升。

「這種極致降本是deepseek的老手藝，從v2的mla（kv cache降低93%），到v3、v4的沿用，再到nsa對attention的改造（64k上下文取得11.6倍加速），以及v3.2的進一步落地，最終通向v4。它還把百萬token上下文的價格打了2.5折，折後價格約是御三家的5%，在國內同級別大模型里屬最便宜的一檔。」

正因為有了足夠便宜的百萬token上下文能力，v4才能在昇騰950pr並未大規模鋪貨時，就敢大降價，這使得各種推理模型、agent和複雜任務就有了更大的想像空間。

這可以看作是一次對算力的極限測試，v4這條鯰魚開始在國產算力的方向攪動了。而這次「攪動」，勢必會改變產業鏈的下注邏輯。

在v4發布之前，華為昇騰的生態推廣面臨一個死結：沒有頂級模型願意第一個吃螃蟹，因為遷移成本極高、風險極大；但沒有頂級模型背書，下游的雲廠商、企業客戶就不敢大規模採購昇騰。v4的發布，直接切斷了這個死結——阿里、位元組、騰訊已經開始大批量採購昇騰950pr。

據業界調研，目前，三大廠商合計採購量超46萬顆，占昇騰950pr全年預計出貨量（75萬顆）的60%以上，不是因為它比h100更好，而是因為它被證明夠用了。「夠用」二字，在產業鏈里價值連城。

或許，過了半年或一年後，anthropic的算力危機終將緩解，opus終將滿血回歸，矽谷的融資機器終將重新轟鳴。但那又怎樣呢？

當一種技術路線被驗證可行後，只要這個國家的工業體系、人才儲備、資本意願還在，它就會以「接力賽」而非「馬拉松」的形式持續下去。deepseek跑第一棒，kimi跑第二棒，後面可能還有阿里、位元組、甚至某個現在還沒成立的小團隊跑第三棒、第四棒。

每一棒都可能摔倒，但只要下一棒有人接著跑，opus、英偉達的領先距離就會被不斷壓縮。而大量中國產開源大模型奔跑在國產算力晶元上，「開源模型+國產晶元」的組合，不僅為全球開發者提供了除美國閉源體系外的關鍵技術選項，也動搖了傳統算力供應鏈的壟斷結構。

即使deepseek某天掉出了第一梯隊，它的人才、它的技術路線、它的開源權重，已經被整個行業吸收了。

換句話說，在全球ai大博弈中，deepseek不需要永遠「強」下去，它只需要證明「這條路能走通」，那就是開啟了一個ai大航海時代。

本文來自微信公眾號：最話 funtalk，作者：林書，編輯：劉宇翔

本內容由作者授權發布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯繫 [email protected]。