DeepSeek+華為昇騰全國產AI 生態突圍

2026年05月02日03:53:09 科技 1507

中經記者秦梟北京報道

時隔一年多，DeepSeek終於迎來重大更新。4月24日，國產大模型企業DeepSeek正式對外發布新一代大模型DeepSeek V4預覽版，包含Pro與Flash雙版本，並同步開放技術報告及模型權重開源許可權。除了版本更迭外，更讓行業關注的是，在該模型發布的同時，華為方面即宣布昇騰超節點全系列產品及華為雲已實現對DeepSeek-V4的全面支持。此次聯動雖在業界預期之內，卻仍引發廣泛關注，不僅印證了英偉達首席執行官黃仁勛此前的警示，更標誌著中國人工智慧產業在降低對CUDA生態依賴方面取得重要進展。

「DeepSeek如果選擇在華為晶元上完成首發，對美國來說將是一場災難。」英偉達CEO黃仁勛在4月中旬的一次訪談中坦言。

多位業內人士在接受《中國經營報》記者採訪時表示，DeepSeek V4基於華為昇騰實現全棧適配，標誌著國產大模型和國產算力晶元已經打通了從訓練到部署的全流程，驗證了萬億參數模型在國產算力架構下落地的可行性，打破了此前行業對於「高端AI訓練只能依賴英偉達」的固有認知。

「沉默」145天的爆發

DeepSeek上一次出現在公眾視野中還是145天前。2025年12月，DeepSeek發布V3.2版本後，其研發團隊便進入「靜默期」。在此後的145天內，國產大模型領域相繼湧現春節AI技術競爭、智能體（Agent）發展熱潮，以及OpenAI發布GPT-5、Anthropic推出Claude Opus 4.7、Kimi發布K2.6等重要行業動態——對於上述絕大多數關鍵節點，DeepSeek均未參與。

145天後的2026年4月24日，DeepSeek舉辦線上發布會，正式推出新一代大模型DeepSeek V4，DeepSeek V4採用雙版本布局，兼顧高性能與高性價比。

其中，V4-Pro版本擁有1.6T總參數、49B激活參數，性能對標GPT-5.5，在編程、推理、多模態處理等核心能力上表現突出。

DeepSeek-V4發布後，主流評測平台進行了能力測試和排名。Artificial Analysis對DeepSeek-V4進行了推理能力專項測評。結果顯示，V4-Pro在人工分析智能指數中斬獲52分，相較V3.2版本的42分實現10分躍升，成為僅次於Kimi K2.6的全球第二大開源推理模型。

除Pro版本外，V4-Flash版本則主打輕量化與低成本，284B總參數、13B激活參數，推理性能接近Pro版本，可滿足中小企業及輕量化應用場景的需求。兩大版本均標配百萬Token（詞元）上下文，能高效處理長文本、複雜推理等任務，且通過技術優化，大幅降低了算力消耗，為後續商業化落地奠定了基礎。

V4-Flash在評測中的得分為47分，性能弱於V4-Pro，但顯著超越DeepSeek-V3.2，綜合智能水平對標Claude Sonnet 4.6（全力版），介於頂尖閉源模型與主流中端模型之間。

DeepSeek也坦言：V4 與 GPT-5.4 存在 3 至 6 個月差距。

不僅是性能得到提升，DeepSeek-V4在發布後僅兩天便啟動大幅降價策略。4月25日晚間，DeepSeek宣布對V4-Pro模型API實施限時2.5折優惠。

僅一天後，26日晚間，該公司再次發布公告，將V4全系列API服務的輸入緩存命中價格下調至原價的十分之一，其中Pro模型在本年度5月5日前可疊加2.5折限時優惠。調價後，DeepSeek-V4-Flash的輸入緩存命中價格為每百萬Token 0.02元，DeepSeek-V4-Pro則為每百萬Token 0.025元。此價格不僅較國外大模型具有顯著優勢，同時也低於國內其他同類大模型。

在官宣降價的次日，DeepSeek-V4-Flash的調用量達814億Token，較前一日環比增長62.2%；DeepSeek-V4-Pro的調用量則為96億Token。

不僅如此，DeepSeek多模態研發團隊的核心研究員陳小康還在社交平台X上公開發文，明確預告「新版DeepSeek V4」即將推出。結合當前語境，這一「新版」毫無懸念地指向了外界翹首以盼的多模態版本。

國產算力的「換芯」

相較於性能的提升，價格的下降，DeepSeek V4不同於以往國產大模型優先適配英偉達GPU的行業慣例，其在研發、訓練、推理全流程方面均採用華為昇騰晶元作為核心算力支撐，華為昇騰同步官宣，昇騰系列晶元（A2、A3、950）已全面完成V4模型適配，其中昇騰950PR晶元成為該模型的主力推理硬體。

華為方面表示，基於DeepSeek V4-Pro模型，在8K輸入場景，昇騰950超節點可實現TPOT約20ms。DeepSeek V4-Flash模型，8K輸入場景下，TPOT約10ms時單卡Decode 吞吐1600TPS，TOPT約20ms時單卡Decode吞吐4700TPS。

除華為昇騰外，在發布會當天，寒武紀（688256.SH）、海光信息、摩爾線程、沐曦股份、百度崑崙芯、阿里平頭哥真武、天數智芯等國產AI晶元宣布均已適配DeepSeek-V4。

在DeepSeek V4發布之前，大多數模型圍繞CUDA體系開發，並沒有擺脫英偉達生態的引力。

國內一家智算中心的負責人告訴記者，長期以來，英偉達憑藉GPU的性能優勢及CUDA生態的壟斷地位，成為全球AI大模型研發的「標配」算力供應商，國內頭部大模型企業大多依賴英偉達H100、H20等晶元開展研發與部署。而DeepSeek V4的發布，首次證明了頂級萬億參數大模型可完全脫離英偉達生態，在國產算力平台上實現穩定運行，打破了國產算力無法支撐頂級大模型的行業偏見。

CUDA是英偉達推出的並行計算平台與編程模型，經過多年的發展，已形成完善的軟體生態，涵蓋運算元庫、開發工具、應用場景等多個層面，全球絕大多數AI模型的研發與部署都基於CUDA框架。而國產算力晶元及框架起步較晚，無論是生態成熟度還是軟體適配性，都與CUDA存在較大差距，這也是長期以來國產大模型依賴英偉達算力的原因之一。

而這正是DeepSeek V4發布能夠引起關注的原因，其完成了從英偉達CUDA生態向華為CANN框架的全棧重構，這一過程並非簡單的技術遷移，而是一場涉及底層架構、核心運算元、精度優化的全方位技術革新，其難度被行業內形容為「萬米高空換發動機」，也正是這一重構，奠定了國產算力支撐頂級大模型的技術基礎。

路透社稱，據知情人士透露，DeepSeek發布V4之前，沒有向美國晶元公司英偉達和超微半導體（AMD）提供模型早期訪問許可權，而是讓中國企業華為提前數周開展軟體適配優化工作。

路透社在報道中用了一個表述：「breaking from standard industry practice（打破行業慣例）。」

北京社科院副研究員王鵬表示，這一跨越標誌著我國AI產業正式擺脫了對外部單一技術路徑的依賴。通過全鏈路的自主實踐，不僅在物理層面實現了軟硬一體的閉環，更在邏輯層面瓦解了由先發優勢構建的生態壁壘。這意味著國產算力不再是應急的替代品，而是具備自我演進能力的獨立體系，保障了國家級智能演進的安全邊界與技術主權。

天使投資人、人工智慧專家郭濤表示，從長期行業發展來看，這一成果將有望逐步打破海外GPU及配套框架長期壟斷的市場格局。此次DeepSeek V4發布之際，多款主流國產晶元同步完成原生適配，實現了模型與晶元的高效協同適配，徹底扭轉了此前國產AI產業「有芯無模、有模無芯」的割裂局面，真正構建起完善的國產AI自主生態。未來開發者無須再依賴海外單一技術框架，依託國產自研技術體系就能高效完成模型開發與優化工作，隨著國產生態持續完善、開發者群體不斷壯大，海外技術壟斷生態的市場份額與行業影響力將被持續擠壓，推動全球AI算力生態走向多元化發展。

在一系列利好催化下，算力板塊表現強勁。4月24日發布會當天，A股國產算力相關板塊集體走強，其中海光信息（688041.SH）漲幅超8%，寒武紀、中芯國際（688981.SH）等國產晶元企業股價全線飄紅，截至4月29日收盤，寒武紀累計漲幅達7.91%。

中信證券認為，DeepSeek V4對國產算力的影響體現在三個維度：一是強化了國產AI晶元使用場景的確定性；二是改變了行業需求結構，市場關注點從訓練卡向推理卡、超節點、互聯、液冷及軟體棧全面延伸；三是提高了國產算力的商業化天花板，Agent、Coding、長上下文等能力進入低成本可用階段，企業級AI需求有望增加。

王鵬表示，在資本與產業雙重維度下，算力板塊的走強反映了市場對「自主底座+原生應用」模式長期價值的認可。這種聯動效應將資金、人才與需求高度聚集在自主鏈條上，加速了技術迭代與應用落地之間的正向循環。從長遠來看，這將推動我國從算力消耗大國向算力標準輸出國轉變，在全球數字經濟版圖中佔據更有利的位置。