英偉達「賺錢機器」更強了!盈利創紀錄,黃仁勛:DeepSeek 為 GPU 降本,但下一代模型還離不開我

整理 | 褚杏娟、tina

今天,英偉達發布了亮眼的財報:季度收入創紀錄為 393 億美元,環比增長 12%,同比增長 78%;季度數據中心收入創紀錄為 356 億美元,環比增長 16%,同比增長 93%;全年收入創紀錄為 1305 億美元,同比增長 114%。

不過,這樣的成績並沒有帶動英偉達股價大漲,反而在財報披露後卻出現了劇烈波動。英偉達分析師電話會議結束,英偉達股價轉而下跌 0.12%。

  • 數據中心業務穩居收入大頭,得益於英偉達 hopper gpu 計算平台和 infiniband 的出貨量增加。在第四季度收入創下 356 億美元的紀錄,比上一季度增長 16%,比去年同期增長 93%。全年收入增長 142%,達到了創紀錄的 1152 億美元。據悉,目前全球 top500 的超級計算機榜單上,超過 75% 的系統由英偉達技術提供支持。雲服務提供商 aws、coreweave、google cloud platform(gcp)、microsoft azure 和 oracle cloud infrastructure(oci)採購英偉達 gb200,以對日益增長的 ai 客戶需求。英偉達將作為投資 5000 億美元的「星際之門」的關鍵技術合作夥伴。

  • 遊戲與 ai pc 業務方面,第四季度遊戲收入為 25 億美元,比上一季度下降 22%,比去年同期下降 11%。全年收入增長 9%,達到了 114 億美元,得益於 rtx 40 系列 gpu 的熱銷。英偉達推出採用 blackwell 架構的 rtx™ 50 系列顯卡,其中 5090 和 5080 相比上一代產品提供最高 2 倍的性能提升。nvidia dlss 4 具備多幀生成和圖像質量增強功能,發布時已有 75 款遊戲和應用支持,nvidia reflex 2 可以將 pc 延遲降低最多 75%。

  • 專業可視化方面,第四季度收入為 5.11 億美元,環比增長 5%,同比增長 10%。全年收入增長 21%,達到了 19 億美元。英偉達發布個人 ai 超級計算機 nvidia project digits,為全球的 ai 研究人員、數據科學家和學生提供訪問英偉達 grace™ blackwell 平台的強大計算能力。

  • 汽車和機器人業務方面,第四季度汽車業務營收達 5.7 億美元,環比增長 27%‌,同比增長 103%‌;全年營收增長 55% 至 17 億美元‌。英偉達與豐田、現代汽車達成合作,推出 nvidia cosmos™平台‌,已被機器人及汽車企業 1x、agile robots、waabi、uber 等採用‌,發布 nvidia jetson orin nano™ super,其生成式 ai 性能最高提升 1.7 倍‌。

英偉達創始人兼首席執行官黃仁勛表示:「blackwell 的需求非常強勁,因為推理 ai 為計算能力增加了另一個縮放定律——增加用於訓練的計算能讓模型更聰明,增加用於長時間思考的計算會讓答案更智能。」

blackwell 是英偉達去年發布的「歷史上最強大」gpu 架構,支持萬億參數規模的 ai 模型訓練和推理。黃仁勛表示,blackwell 架構為推理 ai 設計,推理性能比 hopper 提升 25 倍,成本降低 20 倍。他進一步確認,blackwell 系列晶元的供應鏈問題已完全解決,供應問題不曾妨礙到下一次訓練和後續產品的研發。

此外,黃仁勛透露,blackwell ultra 計劃於 2025 年下半年發布,將帶來新的網路、內存和處理器等改進。cfo 指出,一旦 blackwell 增產,利潤將有所改善,並預計到 2025 年年底,利潤率將在 70%-80% 區間的中部。然而,他強調目前的首要任務是向客戶交付儘可能多的產品。

得益於 r1 推理模型,
全球計算需求在加速增長

今年 1 月,中國初創 ai 公司 deepseek 發布的開源模型 r1 震撼全球——在極低的訓練成本下,該模型展現出不遜於 chatgpt 的頂級性能。這一消息一度引發市場震動,導致英偉達股價單日暴跌 17%。儘管過去一個月內英偉達股價已回升至高位,但市場對訓練效率的提升可能影響其長期增長軌跡的擔憂依然揮之不去。

這份財報所覆蓋的時間(截至 1 月 26 日前的三個月)恰巧與 deepseek 震撼市場的日子(1 月 27 日)錯開,從財報數據本身看不出 deepseek 給英偉達帶來的業績影響,但在財報電話會議上,deepseek 無疑是一個無法迴避的議題。

對於 deepseek 對英偉達的影響,黃仁勛提到,因為 openai o3、deepseek r1 和 grok 3 這些新興推理模型的興起,大家的推理需求正在加速增長。

並且長時間推理(long-thinking reasoning ai)每個任務所需的計算量可能是一次性推理(one-shot inference)的 100 倍。

人工智慧正在從感知和生成式 ai 進化到推理 ai。計算量越大,模型「思考」得越多,答案就越智能。像 openai o3、deepseek r1 和 grok 3 這樣的推理模型正採用推理時間縮放(inference-time scaling)。推理模型的計算需求可能是傳統模型的 100 倍,而未來的推理模型可能需要更大規模的計算資源。

「deepseek r1 的出現點燃了全球的熱情。這是一項出色的創新,但更重要的是,它開源了一個世界級的推理 ai 模型。」

如今,幾乎所有 ai 開發者都在使用 r1,或者借鑒其鏈式思維(chain of thought)和強化學習(reinforcement learning)等技術來提升模型性能。目前有三條縮放定律在推動 ai 計算需求的增長。ai 的傳統縮放定律依然有效,基礎模型(foundation models)正在不斷增強,並融入多模態能力,預訓練規模仍在持續擴大。但這已經不再足夠。ai 計算需求正向兩個新維度擴展。首先是後訓練縮放(post-training scaling),包括強化學習(reinforcement learning)、微調(fine-tuning)和模型蒸餾(model distillation),其計算需求比單純的預訓練高出數個數量級。其次是推理時間縮放,在這一過程中,單次查詢的計算需求可能達到傳統推理的 100 倍。

「這僅僅是個開始!」黃仁勛強調,「我們預計下一代模型可能會基於模擬和搜索技術,計算量需求將是現在的數千倍,甚至有望達到數十萬倍、數百萬倍。」

「有些模型是自回歸模型,有些是基於擴散模型,各不相同。有時我們希望看到數據中心具備強大的綜合推理能力,有時又需要其具備緊湊的特性,因此很難確定數據中心的最佳配置。這也就是為什麼英偉達的架構如此受市場歡迎,因為我們能運行各種模型。」

deepseek 的開源進一步
鞏固英偉達的領先地位?

在財報電話會議上,黃仁勛提到,中國市場的佔比與此前幾個季度大致相同,基本保持穩定。

但根據昨天路透社的消息,由於對 deepseek 低成本 ai 模型的需求激增,中國企業正在加大對英偉達 h20 人工智慧晶元的採購。其中,兩位知情人士指出,自上個月 deepseek 進入全球公眾視野以來,騰訊、阿里巴巴和位元組跳動的 h20 訂單「顯著增長」。

最近幾天,deepseek 開源了針對英偉達進行優化的一系列代碼庫,包括 flashmla、deepep、deepgemm、dualpipe 和 eplb,涉及 hopper gpu、fp8 精度計算、moe(mixture of experts)、並行策略等關鍵技術。

曾參與構建 openai 首個 gpu 集群的 vinayak 昨天發表的評論則揭示了一個深層邏輯——deepseek 開源的優化方案實質上鞏固了英偉達的技術壁壘:「毫無疑問,這將進一步鞏固英偉達的領先地位。 換句話說,如果你想要像 deepseek 這樣的專家團隊為你優化功能,那就選擇英偉達。英偉達很可能會在接下來的 blackwell 和 rubin 迭代中引入這些改進(如果他們在未來幾個月內這麼做了,我一點也不會感到意外)。」

有趣的是,不僅僅是目前開源的這些優化,在 v3 模型論文中,deepseek 甚至在技術層面向英偉達提出的具體改進建議:

其一是累加精度升級。通過實驗發現,英偉達 tensor core 當前累加精度(34 位以下)難以滿足 fp8 訓練的誤差控制需求。deepseek 建議增加累加精度或動態調整位寬,以平衡效率與精度。這一改進若能實現,將顯著提升低精度訓練可靠性。

「我們的實驗發現,tensor core 在進行符號擴展右移後,僅保留每個尾數乘積的最高 14 位,並截斷超出範圍的位數。然而,例如,為了在 32 次 fp8×fp8 乘法累加中獲得精確的 fp32 結果,至少需要 34 位精度。因此,我們建議未來的晶元設計在 tensor core 中增加累加精度,以支持全精度累加,或者根據訓練和推理演算法的精度要求選擇合適的累加位寬。此方法能夠在保持計算效率的同時,將誤差控制在可接受範圍內。」

其二是在線量化流程優化。deepseek 開發了一種基於 tile(子塊)和 block(塊級)的量化方法,可以在數據集中動態調整特定位寬下的數值範圍。而目前英偉達僅支持張量級別的量化。deepseek 希望英偉達的架構師閱讀其論文,並看到該方法的優勢。

其三是矩陣運算融合創新。deepseek 還希望 gpu 廠商將矩陣轉置操作與 gemm(通用矩陣乘法)運算融合,從而進一步減少內存操作,優化量化工作流。

未來,deepseek 和英偉達是否能更深層次的合作,比如共同研發新技術,現在還不好說。但至少目前,deepseek 通過模型優化釋放了中端晶元的潛力,而英偉達則藉助生態反饋增強了硬體的競爭力。

參考鏈接:

https://www.investing.com/news/transcripts/earnings-call-transcript-nvidia-beats-q4-2025-estimates-stock-gains-93ch-3894615

https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/

聲明:本文為 infoq 整理,不代表平台觀點,未經許可禁止轉載。

 🪧讀者福利

免費啦!

13 小時帶你深度揭秘 deepseek!10+ 位 ai 領域專家傾囊相授,多角度拆解 deepseek 案例,揭示其成功背後的技術邏輯與商業策略!

不少網友直呼 「 學到了!」