DeepSeek-V4發佈,黃仁勛的擔憂成真了

2026年04月24日23:40:27 遊戲 7517

 作者聲明:該圖片由ai生成DeepSeek-V4發佈,黃仁勛的擔憂成真了 - 天天要聞

文丨彭傑克

編輯丨程述白

「如果頂尖的ai模型被優化在華為芯片上運行,對美國而言將是『可怕的後果』。」

這是英偉達ceo黃仁勛近期在一檔播客節目中發出的警告。讓他發出警告的對象,是即將發佈新模型的中國ai公司deepseek

讓黃仁勛警惕的,並不是某個具體的模型能力,而是另一件事——綜合多家權威媒體報道:deepseek-v4模型在設計之初便優先圍繞華為昇騰ai體系進行適配。

一旦成功繞過英偉達的cuda體系,deepseek將不再只是英偉達生態里的一個「租戶」,被迫接受高昂的「算力租金」和隨時可能斷供的供應鏈風險,而是成為能自主定義算力效率、掌握技術棧主導權的「規則制定者」。

黃仁勛的這種擔憂在今天(4月24日)成為了半個現實。

沉寂近五個月後,deepseek帶着v4重新回到市場中心,在其定價說明中,有一行幾乎被忽略的灰色小字:受限於高端算力,目前pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市後,pro的價格會大幅下調。

這一細節至少說明,國產算力已經在deepseek的整體體系中佔據了重要位置,甚至在關鍵路徑上開始影響其成本結構與定價邏輯。

這並不意味着既有格局被打破。從技術報告來看,deepseek當前最成熟、最穩定的實現仍然建立在cuda體系之上,核心算子與工程優化依舊集中在英偉達生態內。這也意味着,在短期內,cuda仍然是行業默認的「最優路徑」。

只是,deepseek-v4也證明了,cuda構建的城牆,已經不再堅不可摧。

deepseek-v4都做了什麼

deepseek-v4實際上就幹了一件事:用極致的工程效率,把「頂級大模型」的門檻打了下來。它沒有單純堆砌參數,而是通過一套組合拳,讓高性能ai變得既好用又便宜。

具體來看,首先是參數規模:旗艦版本deepseek-v4-pro總參數達1.6萬億,但每次推理僅激活490億參數;輕量版本deepseek-v4-flash則控制在2840億參數、130億激活規模。

DeepSeek-V4發佈,黃仁勛的擔憂成真了 - 天天要聞● 同一時期國內主流大模型參數對比。製圖:鏡相工作室

兩個版本背後的邏輯一致:通過moe(混合專家)架構,在不顯著增加實際算力負擔的前提下擴展模型容量。通過工程優化,讓模型在推理時只調用最相關的部分,從而實現低成本下的頂級性能。這種結構換算力的思路在v2時期已初見成效,在v4中被進一步放大。

在上下文能力上,deepseek直接將100萬tokens作為「所有官方服務的標配」。相當於你用它的app、網站或api,默認就能一次性上傳一整本《紅樓夢》、整個項目的代碼庫或一份完整的年度報告,讓ai從頭到尾讀完並處理。

在行業中,長期存在上下文越長,成本越高的矛盾。傳統的ai模型為了理解長文本,它需要記住每個字,並且計算每個字和全文中其他所有字的關聯。相當於為了一句話,就需要翻閱並重讀整本字典,效率極低,成本也高。

而v4沒有硬扛這個數學難題,而是用dsa稀疏注意力(deepseek sparse attention)的新機制,通過「打包摘要」和「只抓重點」,大幅降低了處理和記憶長文的計算量與成本。百萬字的長文在ai的「工作內存」(顯存)里,就變成了幾百個高度濃縮的要點,體積和負擔驟減。

如果這一機制能夠在真實場景中穩定運行,那麼長上下文能力將從高端模型的附加項,逐漸轉嚮應用層的基礎配置。

再來看能力層面的變化:

agent能力方面,v4-pro已進入開源模型的第一梯隊。在agentic coding評測中,其表現達到當前開源最優水平,並在內部直接作為工程團隊的編碼工具使用。評測反饋中一個頗具參考價值的細節是,其輸出質量已經接近美國ai企業anthropic高端模型的常規非思考模式,但在更複雜的思考模式上仍有差距。

推理能力方面,在數學、stem以及競賽級代碼任務中,v4-pro的表現超過現有公開評測中的開源模型,並逐步逼近頂級閉源產品。

世界知識方面,v4-pro大幅領先其他開源模型,和谷歌的頂尖閉源模型gemini-pro-3.1存在差距。

這些能力並非孤立存在,而是圍繞具體應用場景展開。v4針對claude code、openclaw、codebuddy等主流agent工具進行了適配,在代碼生成與文檔處理等任務中優化表現。可以看出,它的目標並不是成為最全面的模型,而是更直接地嵌入開發流程,承擔實際生產任務。

系統層面則藏着deepseek能夠便宜下來的「秘密」。

技術報告顯示,deepseek在系統底層做了一套「細粒度專家並行(ep)」方案,簡單理解,就是優化了ai模型在芯片上的「調度算法」,讓計算和通信能像流水線一樣重疊進行。

這套方案已在英偉達gpu與華為昇騰npu兩套體系上完成驗證,推理速度提升了約1.5到2倍。這意味着同樣的芯片,能處理更多的用戶請求,單位成本自然就降了。

不過,從開源實現來看,當前最成熟的版本仍基於cuda。也就是說,核心優化具備跨平台能力,但工程上的最優路徑依然集中在既有的英偉達體系之中,這種狀態為後續的遷移與擴展保留了空間。

定價依舊是deepseek最讓同行牙痒痒的地方。在緩存命中條件下,pro版本輸入價格為1元/百萬token,flash版本低至0.2元;pro版本輸出價格24元/百萬tokens,flash版本輸出價格2元/百萬tokens,都顯著低於其他模型水平。

DeepSeek-V4發佈,黃仁勛的擔憂成真了 - 天天要聞

在deepseek-v4定價表格下方,一行小字值得關註:受限於高端算力,目前pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市後,pro的價格會大幅下調。

DeepSeek-V4發佈,黃仁勛的擔憂成真了 - 天天要聞

當價格調整開始「錨定」某一類算力集群的部署進度時,背後往往意味着該類算力已經在整體體系中佔據了相當權重,至少在關鍵路徑上具備決定性影響。

對於deepseek而言,這更像是一種間接披露——其推理或服務體系,正在越來越多地建立在國產算力之上,而算力供給的變化,已經能夠直接傳導到定價層。

同時,這一邏輯還隱含着另一層變化——模型價格不再只是取決於算法效率,而是開始由算力結構決定。隨着昇騰超節點進入規模化階段,單位算力成本下降所帶來的,不只是利潤空間的釋放,更是價格體系的重塑能力。也正是在這一意義上,deepseek的低價策略,正在從工程優化驅動,逐步過渡到算力體系驅動。

沉默下的野心和無奈

從內外部環境看,讓新模型優先適配國產芯片,是deepseek有意推進的事。它想做的不只是多找幾家可用的ai芯片供應商,更是在嘗試觸碰更底層的東西——通過擺脫英偉達的束縛,走出由上游芯片廠商定義規則、模型公司被動適配的關係,進而反過來重塑上游。這是deepseek真正的野心。

理解這一點,要先理解梁文鋒。從更早的時間點來看,deepseek對算力的重視帶有一種近乎偏執的前瞻性。2015年,甚至更早的2012年,他們就關注到算力儲備,至生成式ai爆發前夜,已囤積了大量英偉達a100芯片,後來成為了「大廠外唯一一家儲備萬張a100芯片的公司」。

梁文鋒在接受暗涌採訪時說:「對研究員來說,對算力的渴求是永無止境的。做了小規模實驗後,總想做更大規模的實驗。」這種渴求背後對應着一個現實的問題,大模型公司的核心生產資料不僅是代碼,更是算力本身;誰能夠掌控算力,誰才有資格穩定地研發、生產模型。

所以deepseek後來做的,不只是爭取更多算力,而是在試圖降低對單一算力體系的依賴。其選擇國產ai芯片,本質上是在建立一套可控的、可持續的生產體系。

而這種抉擇,幾乎貫穿了其過去多年模型研發的始終。簡單說,它在做兩件事:一是繞開英偉達設定好的部分「規則」,二是在嘗試給自己造一個跨不同芯片都能工作的「萬能轉換頭」。

第一步發生在模型架構層。2024年5月發佈的v2,用moe架構大幅降低了模型對算力的消耗。它像是把一個龐大的專家團隊拆分成許多小組,每次只調動最合適的一小部分人幹活,而不是讓所有人同時上陣。結果是,總參數規模雖然很大,但每次真正參與計算的只是一小部分。

到了r1和v3階段,deepseek向底層「施工現場」下探。我們可以把cuda理解成英偉達給開發者制定的一套通用施工規範,絕大多數模型都按照這套規範搭房子。而deepseek開始嘗試繞開其中部分標準流程,直接接觸更接近硬件的ptx(英偉達為編程其gpu而引入的一種並行線程執行架構的中間語言)指令,自己調配鋼筋、水泥和施工順序。

這樣做很難,因為越靠近底層,越需要對硬件細節有極深理解。但好處也明顯,同樣一塊gpu能榨出更多性能,甚至在硬件條件不佔優時,用工程優化彌補部分差距,從而降低對高端gpu的依賴程度。

前兩步還是在英偉達體系內做更高難度的優化,去年9月v3.2-exp的嘗試,開始有了另一層意味。他們對主流算子庫做了調整,引入了tilelang——一個「萬能轉換頭」。

過去開發算子(模型運轉最底層的計算單元),很像給不同國家的電器配插頭,每換一種gpu,都要重新改寫一遍代碼,成本高、周期長,而且高度依賴cuda。deepseek的方案是,先用一種更高層、更通用的語言把計算邏輯寫出來,再把它翻譯成適配不同gpu的代碼。

tilelang就是這樣一種嘗試。開發者可以先用更接近python(ai研發的世界語)的方式快速寫出算子原型,再通過編譯器映射到底層執行,並結合具體硬件做優化。這樣一來,過去一塊gpu寫一套代碼的方式,就開始變成先寫通用邏輯,再做局部適配。華為部分芯片也在推進對tilelang的適配,意義正在這裡。

從架構創新,到規則繞行,再到算子庫改寫、國產芯片大規模適配,deepseek的野心越來越大,走的路也越來越崎嶇。

從v2到v4,中間橫跨15個月,期間經歷長時間沉寂。外界看到的是發佈頻率偏低,看不見的是大量系統工程投入。這類軟硬件協同創新,本來就比單純做模型參數迭代難得多,因為動的不只是模型,還有底層技術棧。這也解釋了,為什麼r1之後deepseek人才會成為大廠爭奪目標——行業意識到了這種工程路線的價值。

但技術理想主義之外,deepseek還有現實考慮。作為一家堅持開源路線的模型公司,deepseek天然缺乏類似openai那樣的閉環商業能力,也沒有谷歌或亞馬遜那樣可以內部消化模型成本的雲計算體系,更沒有騰訊、阿里、位元組等大廠那樣完備的商業生態,開源意味着更強的影響力和更快的擴散速度,但也意味着更薄的利潤空間和更高的成本敏感度。

這也是為什麼deepseek在v2模型階段就選擇用極致的成本打穿市場,直接掀起一場「價格戰」,本質還是通過工程能力換取商業空間。但這種優勢建立在一個前提上,那就是算力成本必須可控。一旦gpu價格上漲或供給收緊,成本優勢就會迅速被侵蝕。因此,對於一家開源公司來說,擺脫對單一算力生態的依賴,不只是技術選擇,更是商業生存的要求。

與此同時,同業競爭進一步放大了這種壓力。過去一年,大模型高頻迭代,主流廠商幾乎以周為單位發佈新模型,再加上多位核心人才流入其他模型廠商或大廠,deepseek不得不承認,如果繼續在既有路徑上與同業競爭,很可能陷入節奏與資源的雙重劣勢。

在這樣的背景下,deepseek選擇將萬億級參數的自研模型優先適配國產芯片,甚至有意延後向英偉達、amd提供訪問權限,給國產芯片留足軟硬件適配、調優的時間,是一種改變遊戲規則的嘗試。相比在英偉達cuda體系內與同業正面競爭,deepseek更有可能通過軟硬件協同的方式,重新定義自身優勢邊界。這也是deepseek最擅長的,通過工程與架構創新,重寫競爭邊界。

這意味着,它不再只是一個使用算力的公司,而是在嘗試參與定義算力,乃至反過來、自下而上重塑這套生態。

 作者聲明:該圖片由ai生成DeepSeek-V4發佈,黃仁勛的擔憂成真了 - 天天要聞● deepseek正通過實現國產芯片軟硬件協同挑戰英偉達的封鎖地位。圖源:ai生成。

撕裂英偉達cuda生態

這是黃仁勛第二次因為deepseek而感到緊張。

第一次發生在r1模型發佈之時。deepseek直接衝擊了行業對算力堆疊的路徑依賴,也在短期內引發了市場對英偉達需求預期的波動。據報道,去年1月r1模型發佈後,經過幾天市場情緒的發酵,英偉達迎來了股價大跌,在短短三天內蒸發了6000億美元。

彼時,黃仁勛「挽尊」說,deepseek及其開源推理模型所帶來的能量「令人無比興奮」,但投資人「判斷錯誤」,誤以為這對英偉達及人工智能(ai)產業是不利的。它不僅不會終結ai計算需求,反而會擴大並加速市場對更高效ai模型的追求,從而推動整個行業的發展。

但現在,黃仁勛不再避諱對deepseek使用華為芯片的焦慮。

要理解這一點,必須回到英偉達真正的護城河——cuda所構建的軟件生態。

cuda不僅是一個編程工具,更像是ai時代的「操作系統」;全球數百萬開發者圍繞它構建了加速庫、框架與模型代碼,一整套開發範式由此形成。正因為如此,遷移成本極高,一旦離開cuda,大量底層代碼需要重寫,工程與測試成本動輒達到千萬級別。這才是英偉達長期佔據主導地位的核心原因。

目前,國內芯片廠商在試圖填補這一生態空白。例如華為推出的cann體系,在設計上直接對標cuda,通過兼容部分cuda api和自動轉換算子,降低開發者遷移門檻。同時支持主流框架,並推動自研框架的落地。這種路徑先通過兼容降低切換成本,再逐步建立自身生態。

雖然當前性能損耗與工程複雜度仍然存在,但大模型廠商也在努力。幾乎所有主流模型廠商,在發佈新模型後,都會同步適配多種國產ai芯片,包括昇騰、崑崙芯、寒武紀等。

不過,在相當長一段時間裏,這種適配更多停留在兼容層,大多數模型仍然圍繞cuda體系開發,並沒有擺脫英偉達生態的引力。

deepseek的不同之處在於,它並沒有完全依賴這種兼容路徑,不是簡單地遷移,而是在一定程度上重新搭建一套體系,劍指最龐雜的生態層。

雖然短期內deepseek很難對英偉達形成實質性衝擊,但真正值得關注的是中長期的邊際變化。deepseek的特殊性在於,它不僅是一個模型廠商,還是一個擁有廣泛開發者基礎的開源項目。

根據openrouter統計,截至4月13日的一周,全球大語言模型token(詞元)消耗量榜單中,deepseek-v3.2模型消耗量1.28萬億,排名全球第二,僅次於anthropic旗下的claude sonnet 4.6模型,但前者的輸出價格只有後者的約1/12、輸入價格只有1/40。

這意味着,一旦其模型在非cuda體系上運行成熟,其所帶來的不僅是技術驗證,更可能是開發者行為的改變。對於開發者而言,是否遷移,並不完全取決於底層架構使用習慣,還取決於模型是否足夠好、成本是否足夠低。

這也正是開源路徑的魅力所在。與閉源模型不同,deepseek的技術路線、算子實現以及工程經驗,都可以被其他模型廠商和硬件廠商復用。一旦這種路徑被證明可行,其擴散速度可能遠快於單一公司的技術突破。

因此,與其說deepseek正在衝擊英偉達,不如說它正在打開一道裂縫。這道裂縫短期內不會動搖英偉達的主導地位,但如果越來越多的模型廠商開始在訓練階段嘗試非cuda、非英偉達路徑、如果越來越多的開發者開始適應新的工具鏈,那麼英偉達長期建立的軟件壁壘,可能會慢慢垮塌。

當然,這一過程仍然充滿不確定性。但可以確定的是,隨着國產模型和芯片的探索,ai時代的競爭,正在從誰的a100更多、更高端,逐步轉向誰能構建更完整的軟硬件體系。

封面來源:ai生成

參考資料

暗涌:《瘋狂的幻方:一家隱形ai巨頭的大模型之路》《deepseek 創始人專訪:中國的 ai 不可能永遠在跟隨,技術創新永遠是第一優先級》

晚點latepost:《v4 發佈前的 deepseek:特質、組織和梁文鋒的獨特目標》

appso:《deepseek,該卸下掃地僧的枷鎖了》

財經ai湃:《沉默了五個月的deepseek,在被期待什麼?》

21世紀經濟報道:《黃仁勛首度回應deepseek衝擊!英偉達暴跌系投資者誤解》

thenextweb: <nvidia』s huang warns deepseek running on huawei chips would be 『horrible』 for the us>

the information: <deepseek』s new ai model will be a victory for huawei>

tomshardware: <deepseek's ai breakthrough bypasses industry-standard cuda for some functions, uses nvidia's assembly-like ptx programming instead>

reuters:<deepseek withholds latest ai model from us chipmakers including nvidia, sources say >

【版權聲明】所有內容著作權歸屬鏡相工作室,未經書面許可,不得轉載、摘編或以其他形式使用,另有聲明除外。

遊戲分類資訊推薦

3-1爆冷+紅牌+主場哨!中超名記怒噴:水平太低 - 天天要聞

3-1爆冷+紅牌+主場哨!中超名記怒噴:水平太低

5月2日中超第9輪,足壇徹底炸鍋!青島海牛主場3-1干翻衛冕冠軍上海海港,終結13年不勝魔咒。但這場冷門賽後全變味了,主裁判朱文彬的一連串謎之操作,直接把自己送上熱搜,名記直言「水平太低,妥妥主場哨」! 這場球從一開始就充滿火藥味。第9分鐘,羅森文轟出超級世界波,海牛1-0領先 。下半場剛開場,海港楊希扳平比分,...
法馬利康2-2本菲卡,謝爾德魯普首開記錄,阿布巴卡救主 - 天天要聞

法馬利康2-2本菲卡,謝爾德魯普首開記錄,阿布巴卡救主

北京時間5月3日葡萄牙足球超級聯賽 聯賽 第32輪,法馬利康主場對陣本菲卡。法馬利康德-阿莫里姆破門,阿布巴卡破門。本菲卡謝爾德魯普破門,里奧斯破門。最終比分法馬利康 2-2 本菲卡。精彩瞬間第12分鐘,本菲卡球員謝爾德魯普罰入點球。第19分鐘,本菲卡球員謝爾德魯普助攻里奧斯打入一球。第55分鐘,本菲卡球隊奧塔門迪吃...
Bin挑戰心魔?BLG欲復仇NIP,TT大戰LNG - 天天要聞

Bin挑戰心魔?BLG欲復仇NIP,TT大戰LNG

北京時間2026年5月3日,英雄聯盟LPL第二賽段將在這一天分別迎來TT對陣LNG以及BLG對陣NIP這兩場比賽。特別是BLG與NIP的再次對決,引起了不少人的關注。因為此前BLG不敵NIP,可謂是爆了第二賽段最大的冷門。