黃仁勛在gtc大會演講中提及,推理讓算力需求暴增100倍
騰訊科技特約作者 蘇揚、郝博陽
編輯 鄭可君
過去兩屆gtc大會,英偉達市值為7000億美元、2.7萬億美元,今年gtc期間市值為2.8萬億美元,此前一度沖至3.6萬億美元。
從7000億到3.6萬億,是一個有關「算力共識」的故事,而從3.6萬億回落到2.8萬億,反映的則是「算力分歧」。
不過,作為ai時代的「賣鏟人」,黃仁勛和他的英偉達,始終堅信的是——算力永不眠。
今天的gtc大會上,黃仁勛拿出了全新的blackwell ultra gpu,以及在此基礎上衍生的應用於推理、agent的伺服器sku,也包括基於blackwell架構的rtx全家桶,這一切都與算力有關,但接下來更重要的是,英偉達還需要搞搞新意思——如何將源源不斷算力,合理有效的消耗掉。
在黃仁勛的眼裡,通往agi需要算力,具身智能機器人需要算力,構建omniverse與世界模型更需要源源不斷的算力,至於最終人類構建一個虛擬的「平行宇宙」,需要什麼量級的算力,英偉達給了一個泛泛的答案——過去的100倍。
為了支撐自己的觀點,黃仁勛在gtc現場曬了一組數據——2024年美國前四雲廠總計採購130萬顆hopper架構晶元,到了2025年,這一數據飆升至360萬顆blackwell gpu。
黃仁勛在gtc現場稱美國前四大雲廠仍然在大力投資算力基礎設施
以下是騰訊科技整理的英偉達gtc 2025大會的一些核心要點:
01 blackwell全家桶上線
1)年度「核彈」blackwell ultra在擠牙膏
英偉達去年gtc發布blackwell架構,並推出gb200晶元,今年的正式名稱做了微調,不叫之前傳言的gb300,直接就稱之為blakwell ultra。
但從硬體來看,就是在去年基礎上更換了新的hbm內存。一句話理解就是,blackwell ultra= blackwell大內存版本。
blackwell ultra由兩顆台積電n4p(5nm)工藝,blackwell 架構晶元+grace cpu封裝而來,並且搭配了更先進的12層堆疊的hbm3e內存,顯存提升至為288gb,和上一代一樣支持第五代nvlink,可實現1.8tb/s的片間互聯帶寬。
nvlink歷代性能參數
基於存儲的升級,blackwell gpu的fp4精度算力可以達到15petaflops,基於attention acceleration機制的推理速度,比hopper架構晶元提升2.5倍。
2)blackwell ultra nvl72:ai推理專用機櫃
blackwell ultra nvl72官方圖
和gb200 nvl72一樣,英偉達今年也推出了類似的產品blackwell ultra nvl72機櫃,一共由18個計算托盤構成,每個計算托盤包含4顆blackwell ultra gpu+2顆grace cpu,總計也就是72顆blackwell ultra gpu+36顆grace cpu,顯存達到20tb,總帶寬576tb/s,外加9個nvlink交換機托盤(18顆nvlink 交換機晶元),節點間nvlink帶寬130tb/s。
機櫃內置72張cx-8網卡,提供14.4tb/s帶寬,quantum-x800 infiniband和spectrum-x 800g乙太網卡則可以降低延遲和抖動,支持大規模ai集群。此外,機架還整合了18張用於增強多租戶網路、安全性和數據加速bluefield-3 dpu。
英偉達說這款產品是「為ai推理時代」專門定製,應用場景包括推理型ai、agent以及物理ai(用於機器人、智駕訓練用的數據模擬合成),相比前一代產品gb200 nvl72的ai性能提升了1.5倍,而相比hopper架構同定位的dgx機櫃產品,可以為數據中心提供50倍增收的機會。
根據官方提供的信息,6710億參數deepseek-r1的推理,基於h100產品可實現每秒100tokens,而採用blackwell ultra nvl72方案,可以達到每秒1000 tokens。
換算成時間,同樣的推理任務,h100需要跑1.5分鐘,而blackwell ultra nvl72 15秒即可跑完。
blackwell ultra nvl72和gb200 nvl72硬體參數
根據英偉達提供的信息,blackwell nvl72相關產品預計在2025年下半年上市,客戶包括伺服器廠商、雲廠、算力租賃服務商幾大類:
伺服器廠商:cisco/dell/hpe/lenovo/超微等15家製造商
雲廠:aws/google cloud/azure/oracle雲等主流平台
算力租賃服務商:coreweave/lambda/yotta等
3)提前預告真「核彈」gpu rubin晶元
按照英偉達的路線圖,gtc2025的主場就是blackwell ultra。
但是從觀感上,對比blackwell的硬體,應該有很多人會覺得英偉達也在擠牙膏,但沒關係,黃仁勛再一次預告了2026年上市的基於rubin架構的下一代gpu以及更強的機櫃vera rubin nvl144——72顆vera cpu+144顆 rubin gpu,採用288gb顯存的hbm4晶元,顯存帶寬13tb/s,搭配第六代nvlink和cx9網卡。
這個產品有多強呢?fp4精度的推理算力達到了3.6exaflops,fp8精度的訓練算力也達到了1.2exaflops,性能是blackwell ultra nvl72的3.3倍。
如果你覺得還不夠,沒關係,2027年還有更強的 rubin ultra nvl576機櫃,fp4精度的推理和fp8精度的訓練算力分別是15exaflops和5exaflops,14倍於blackwell ultra nvl72。
英偉達官方提供的rubin ultra nvl144和rubin ultra nvl576渲染圖及參數
4)blackwell ultra版dgx super pod「超算工廠「
對於那些現階段blackwell ultra nvl72都不能滿足需求,又不需要搭建超大規模ai集群的客戶,英偉達的解決方案是基於blackwell ultra、即插即用的dgx super pod ai超算工廠。
作為一個即插即用的ai超算工廠,dgx super pod主要面向專為生成式ai、ai agent和物理模擬等ai場景,覆蓋從預訓練、後訓練到生產環境的全流程算力擴展需求,equinix作為首個服務商,提供液冷/風冷基礎架構支持。
由blackwell ultra構建的dgx superpod
基於blackwell ultra定製的dgx super pod分兩個版本:
內置dgx gb300(grace cpu ×1+blackwell gpu ×1) 的dgx superpod,總計288顆grace cpu+576顆 blackwell ultra gpu,提供300tb的快速內存,fp4精度下算力為11.5exaflops
內置dgx b300的dgx superpod,這個版本不含grace cpu晶元,具備進一步的擴展空間,且採用的是風冷系統,主要應用場景為普通的企業級數據中心
5)dgx spark與dgx station
今年1月份,英偉達在ces上曬了一款售價3000美元的概念性的ai pc產品——project digits,現在它有了正式名稱dgx spark。
產品參數方面,搭載gb10晶元,fp4精度下算力可以達到1petaflops,內置128gb lpddr5x 內存,cx-7網卡,4tb nvme存儲,運行基於linux定製的dgx os操作系統,支持pytorch等框架,且預裝了英偉達提供的一些基礎ai軟體開發工具,可以運行2000億參數模型。整機的尺寸和mac mini的大小接近,兩台dgx spark互聯,還可以運行超過4000億參數的模型。
雖然我們說它是ai pc,但本質上仍然屬於超算範疇,所以被放在了dgx產品系列當中,而不是rtx這樣的消費級產品裡面。
不過也有人吐槽這款產品,fp4的宣傳性能可用性低,換算到fp16精度下只能跟rtx 5070,甚至是250美元的arc b580對標,因此性價比極低。
dgx spark計算機與dgx station工作站
除了擁有正式名稱的dgx spark,英偉達還推出了一款基於blackwell ultra的ai工作站,這個工作站內置一顆grace cpu和一顆blackwell ultra gpu,搭配784gb的統一內存、cx-8網卡,提供20petaflops的ai算力(官方未標記,理論上也是fp4精度)。
6)rtx橫掃ai pc,還要擠進數據中心
前面介紹的都是基於grace cpu和blackwell ultra gpu的產品sku,且都是企業級產品,考慮到很多人對rtx 4090這類產品在ai推理上的妙用,英偉達本次gtc也進一步強化了blackwell和rtx系列的整合,推出了一大波內置gddr7內存的ai pc相關gpu,覆蓋筆記本、桌面甚至是數據中心等場景。
桌面gpu:,包括rtx pro 6000 blackwell 工作站版、rtx pro 6000 blackwell max-q工作站版、rtx pro 5000 blackwell、rtx pro 4500 blackwell 以及rtx pro 4000 blackwell
筆記本gpu: rtx pro 5000 blackwell、rtx pro 4000 blackwell、rtx、pro 3000 blackwell、rtx pro 2000 blackwell、rtx pro 1000 blackwell以及rtx pro 500 blackwell
數據中心 gpu:nvidia rtx pro 6000 blackwell伺服器版
英偉達針對企業級計算打造的ai「全家桶」
以上還只是部分基於blackwell ultra晶元針對不同場景定製的sku,小到工作站,大到數據中心集群,英偉達自己將其稱之為「blackwell family」(blackwell家族),中文翻譯過來「blackwell全家桶」再合適不過。
02 英偉達photonics:站在隊友肩膀上的cpo系統
光電共封模塊(cpo)的概念,簡單來說就是將交換機晶元和光學模塊共同封裝,可實現光信號轉化為電信號,充分利用光信號的傳輸性能。
在此之前,業界就一直在討論英偉達的cpo網路交換機產品,但一直遲遲未上線,黃仁勛在現場也給了解釋——由於在數據中心中大量使用光纖連接,光學網路的功耗相當於計算資源的10%,光連接的成本直接影響著計算節點的scale-out網路和ai性能密度提升。
gtc上展示的兩款硅光共封晶元quantum-x、spectrum-x參數
今年的gtc英偉達一次性推出了quantum-x硅光共封晶元、spectrum-x硅光共封晶元以及衍生出來的三款交換機產品:quantum 3450-ld、spectrum sn6810和spectrum sn6800。
quantum 3450-ld:144個800gb/s埠,背板帶寬115tb/s,液冷
spectrum sn6810:128個800gb/s埠,背板帶寬102.4tb/s,液冷
spectrum sn6800:512個800gb/s埠,背板帶寬409.6tb/s,液冷
上述產品統一歸類到「nvidia photonics」,英偉達說這是一個基於cpo合作夥伴生態共創研發的平台,例如其搭載的微環調製器(mrm)是基於台積電的光引擎優化而來,支持高功率、高能效激光調製,並且採用可拆卸光纖連接器。
比較有意思的是,根據之前業內的資料,台積電的微環調製器(mrm)是其與博通基於3nm工藝以及cowos等先進封裝技術打造而來。
按照英偉達給的數據,整合光模塊的photonics交換機相比傳統交換機,性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的擴展彈性。
03 模型效率pk deepseek,軟體生態發力ai agent
黃仁勛在現場描繪ai infra的「大餅」
1)nvidia dynamo,英偉達在推理領域構建的新cuda
nvidia dynamo絕對是本場發布的軟體王炸。
它是一個專為推理、訓練和跨整個數據中心加速而構建的開源軟體。dynamo的性能數據相當震撼:在現有hopper架構上,dynamo可讓標準llama模型性能翻倍。而對於deepseek等專門的推理模型,用上dynamo的blackwell能讓性能提升達到hopper的40倍。
黃仁勛演示加了dynamo的blackwell能超過25倍的hopper
黃仁勛表示,這就是ai工廠未來的軟體。它會替代現在的saas,成為agent的基礎軟體。
dynamo的這些改進主要得益於分布化。它將llm的不同計算階段(理解用戶查詢和生成最佳響應)分配到不同gpu,使每個階段都能獨立優化,提高吞吐量並加快響應速度。
dynamo的系統架構
比如在輸入處理階段,也就是預填充階段,dynamo能夠高效地分配gpu資源來處理用戶輸入。系統會利用多組gpu並行處理用戶查詢,希望gpu處理的更分散、更快。dynamo用fp4模式調用多個gpu同時並行「閱讀」和「理解」用戶的問題,其中一組gpu處理「第二次世界大戰」的背景知識、另一組處理「起因「相關的歷史資料、第三組處理「經過「的時間線和事件,這一階段像是多個研究助理同時查閱大量資料。
而在生成輸出tokens,也就是解碼階段,則需要讓gpu更專註和連貫。至於如何選合適的gpu,是通過「smart router」將請求定向到已緩存相關kv(鍵值)的gpu上,這可以避免重複計算,極大地提高了處理速度。dynamo用專門的gpu整合前一階段分散gpu收集的資料,比起gpu數量,這個階段更需要更大的帶寬去吸取前一階段的思考信息。dynamo優化了gpu間通信和資源分配,確保連貫且高效的響應生成。它充分利用了nvl72架構的高帶寬nvlink通信能力,最大化令牌生成效率。
這一套架構和kimi的mooncake架構非常類似,但在底層infra上英偉達做了更多支持。mooncake大概可以提升5倍左右,但dynamo在推理上提升的更明顯。
比如dynamo的幾項重要創新中,「gpu planner」能夠根據負載動態調整gpu分配,「低延遲通信庫」優化了gpu間數據傳輸,而「內存管理器」則智能地將推理數據在不同成本級別的存儲設備間移動,進一步降低運營成本。而智能路由器,llm感知型路由系統,將請求定向到最合適的gpu,減少重複計算。這一系列能力都使得gpu的負載達到最佳化。
利用這一套軟體推理系統能夠高效擴展到大型gpu集群,最高可以使單個ai查詢無縫擴展到多達1000個gpu,以充分利用數據中心資源。
而對於gpu運營商來講,這個改進使得每百萬令牌成本顯著下降,而產能大幅提升。同時單用戶每秒獲得更多token,響應更快,用戶體驗改善。
用dynamo,讓伺服器達到吞吐量和應答速度間的黃金收益線
與cuda作為gpu編程的底層基礎不同,dynamo是一個更高層次的系統,專註於大規模推理負載的智能分配和管理。它負責推理優化的分散式調度層,位於應用程序和底層計算基礎設施之間。但就像cuda十多年前徹底改變了gpu計算格局,dynamo也可能成功開創推理軟硬體效率的新範式。
dynamo完全開源,支持從pytorch到tensor rt的所有主流框架。開源了也照樣是護城河。和cuda一樣,它只對英偉達的gpu有效果,是nvidia ai推理軟體堆棧的一部分。
用這個軟體升級,nvidia構築了自己反擊groq等專用推理aisc晶元的城防。必須軟硬搭配,才能主導推理基礎設施。
2)llama nemotron新模型秀高效,但還是打不過deepseek
雖然在伺服器利用方面,dynamo 確實相當驚艷,但在訓練模型方面英偉達還和真內行有點差距。
英偉達在這次gtc上用一款新模型llama nemotron,主打高效、準確。它是由llama系列模型衍生而來。經過英偉達特別微調,相較於llama本體,這款模型經過演算法修剪優化,更加輕量級,僅有48b。它還具有了類似o1的推理能力。與claude 3.7和grok 3一樣,llama nemotron模型內置了推理能力開關,用戶可選擇是否開啟。這個系列分為三檔:入門級的nano、中端的super和旗艦ultra,每一款都針對不同規模的企業需求。
llama nemotron的具體數據
說到高效,這一模型的微調數據集完全英偉達自己生成的合成數據組成,總數約60b token。相比deepseek v3用130萬h100小時完整訓練,這個僅有deepseek v3 1/15參數量的模型只是微調就用了36萬h100小時。訓練效率比deepseek差一個等級。
在推理上效率上,llama nemotron super 49b模型確實比上一代模型表現要好得多,其token吞吐量能達到llama 3 70b 的5倍,在單個數據中心gpu下它可以每秒吞吐3000 token以上。但在deepseek 開源日最後一天公布的數據中,每個h800 節點在預填充期間平均吞吐量約為73.7k tokens/s 輸入(包括緩存命中)或在解碼期間約為14.8k tokens/s 輸出。兩者差距還是很明顯的。
從性能上看,49b的llama nemotron super 在各項指標中都超過了70b的經deepseek r1蒸餾過的llama 70b模型。不過考慮到最近qwen qwq 32b模型之類的小參數高能模型頻繁發布,llama nemotron super 估計在這些能和r1本體掰手腕的模型里難以出彩。
最要命的是,這個模型,等於實錘了deepseek也許比英偉達更懂在訓練過程中調教gpu。
3)新模型只是英偉達ai agent生態的前菜,nvida aiq才是正餐
英偉達為什麼要開發一個推理模型呢?這主要是為了老黃看中的ai下一個爆點——ai agent做準備。自從openai、claude等大廠逐步通過deepreasearch、mcp建立起了agent的基礎後,英偉達明顯也認為agent時代到來了。
nvida aiq項目就是英偉達的嘗試。它直接提供了一個以llama nemotron推理模型為核心的規劃者的ai agent現成工作流。這一項目歸屬於英偉達的blueprint(藍圖)層級,它是指一套預配置的參考工作流、是一個個模版模板,幫助開發者更容易地整合nvidia的技術和庫。而aiq就是英偉達提供的agent模版。
nvida aiq的架構
和manus一樣,它集成網路搜索引擎及其他專業ai代理等外部工具,這讓這個agent本身可以既能搜索,又能使用各種工具。通過llama nemotron推理模型的規劃,反思和優化處理方案,去完成用戶的任務。除此之外,它還支持多agent的工作流架構搭建。
基於這套模版做的servicenow系統
比manus更進一步的是,它具有一個複雜的針對企業文件的rag系統。這一系統包括提取、嵌入、向量存儲、重排到最終通過llm處理的一系列步驟,能保證企業數據為agent所用。
在此之上,英偉達還推出了ai數據平台,把ai推理模型接到企業數據的系統上,形成一個針對企業數據的deepreasearch。使得存儲技術的重大演進,使得存儲系統不再僅是數據的倉庫,而是擁有主動推理和分析能力的智能平台。
ai data platform的構成
另外,aiq非常強調可觀察性和透明度機制。這對於安全和後續改進來講非常重要。開發團隊能夠實時監控agent的活動,並基於性能數據持續優化系統。
整體來講nvida aiq是個標準的agent工作流模版,提供了各種agent能力。算是進化到推理時代的,更傻瓜的dify類agent構築軟體。
03. 人形機器人基礎模型發布,英偉達要做具身生態全閉環
1)cosmos,讓具身智能理解世界
如果說專註agent還是投注現在,那英偉達在具身智能上的布局完全算得上是整合未來了。
模型、數據、算力這模型三要素英偉達都給安排齊了。
先從模型開始說,本次gtc放出了今年1月公布的具身智能基礎模型cosmos的升級版。
cosmos是一個能通過現在畫面,去預測未來畫面的模型。它可以從文本/圖像輸入數據,生成詳細的視頻,並通過將其的當前狀態(圖像/視頻)與動作(提示/控制信號)相結合來預測場景的演變。因為這需要對世界的物理因果規律有理解,所以英偉達稱cosmos是世界基礎模型(wfm)。
cosmos的基本架構
而對於具身智能而言,預測機器的行為會給外部世界帶來什麼影響是最核心的能力。只有這樣,模型才能去根據預測規划行為,所以世界模型就成了具身智能的基礎模型。有了這個基礎的行為/時間-物理世界改變的世界預測模型,通過具體的如自動駕駛、機器人任務的數據集微調,這個模型就可以滿足各種具有物理形態的具身智能的實際落地需要了。
整個模型包含三部分能力,第一部分cosmos transfer 將結構化的視頻文字輸入轉換為可控的真實感視頻輸出,憑空用文字產生大規模合成數據。這解決了當前具身智能最大的瓶頸——數據不足問題。而且這種生成是一種「可控」生成,這意味著用戶可以指定特定參數(如天氣條件、物體屬性等),模型會相應調整生成結果,使數據生成過程更加可控和有針對性。整個流程還可以由ominiverse和cosmos結合。
cosmos建立在ominiverse上的現實模擬
第二部分cosmos predict 能夠從多模態輸入生成虛擬世界狀態,支持多幀生成和動作軌跡預測。這意味著,給定起始和結束狀態,模型可以生成合理的中間過程。這是核心物理世界認知和構建能力。
第三部分是cosmos reason,它是個開放且可完全定製的模型,具有時空感知能力,通過思維鏈推理理解視頻數據並預測交互結果。這是規划行為和預測行為結果的提升能力。
有了這三部分能力逐步疊加,cosmos就可以做到從現實圖像token+文字命令提示token輸入到機器動作token輸出的完整行為鏈路。
這一基礎模型應該確實效果不俗。推出僅兩個月,1x、agility robotics、figure ai這三家頭部公司都開始用起來了。大語言模型沒領先,但具身智能英偉達確實在第一梯隊里。
2)isaac gr00t n1,世界第一個人形機器人基礎模型
有了cosmos,英偉達自然而然用這套框架微調訓練了專用於人型機器人的基礎模型isaac gr00t n1。
isaac gr00t n1的雙系統架構
它採用雙系統架構,有快速反應的「系統1「和深度推理的「系統2「。它的全面微調,使得其能處理抓取、移動、雙臂操作等通用任務。而且可以根據具體機器人進行完全定製,機器人開發者可用真實或合成數據進行後訓練。這使得這一模型實際上可以被部署在各種各樣形狀各異的機器人中。
比如說英偉達與google deepmind和迪士尼合作開發newton物理引擎,就用了isaac gr00t n1作為底座驅動了一個非常不常見的小迪士尼bdx機器人。可見其通用性之強。newton作為物理引擎非常細膩,因此足夠建立物理獎勵系統,以在虛擬環境中訓練具身智能。
黃仁勛與bdx機器人台上「激情」互動
4)數據生成,雙管齊下
英偉達結合nvidia omniverse和上面提到的nvidia cosmos transfer世界基礎模型,做出了isaac gr00t blueprint。它能從少量人類演示中生成大量合成動作數據,用於機器人操作訓練。nvidia使用blueprint的首批組件,在僅11小時內生成了78萬個合成軌跡,相當於6,500小時(約9個月)的人類演示數據。isaac gr00t n1的相當一部分數據就來自於此,這些數據使得gr00t n1的性能比僅使用真實數據提高了40%。
孿生模擬系統
針對每個模型,靠著omniverse這套純虛擬系統,以及cosmos transfer這套真實世界圖像生成系統,英偉達都能提供大量的高質量數據。這模型的第二個方面,英偉達也覆蓋了。
3)三位一體算力體系,打造從訓練到端的機器人計算帝國
從去年開始,老黃就在gtc上強調一個「三台計算機」的概念:一台是dgx,就是大型gpu的伺服器,它用來訓練ai,包括具身智能。另一台agx,是nvidia為邊緣計算和自主系統設計的嵌入式計算平台,它用來具體在端側部署ai,比如作為自動駕駛或機器人的核心晶元。第三台就是數據生成計算機omniverse+cosmos。
具身智能的三大計算體系
這套體系在本次gtc中又被老黃重提,且特別提到靠著這套算力系統,能誕生十億級的機器人。從訓練到部署,算力都用英偉達。這一部分也閉環了。
04. 結語
如果單純對比上一代blackwell晶元,blackwell ultra在硬體上確實匹配不上之前的「核彈」、「王炸」這些形容詞,甚至有些擠牙膏的味道。
但如果從路線圖規劃的角度來看,這些又都在黃仁勛的布局之中,明年、後年的rubin架構,從晶元工藝,到晶體管,再到機架的集成度,gpu互聯和機櫃互聯等規格都會有大幅度提升,用中國人習慣說的叫「好戲還在後頭」。
對比硬體層面上的畫餅充饑,這兩年英偉達在軟體層面上可以說是狂飆突進。
縱觀英偉達的整個軟體生態,meno、nim、blueprint三個層級的服務把模型優化、模型封裝到應用構建的全棧解決方案都包括進去了。雲服務公司的生態位英偉達ai全部重合。加上這次新增的agent,ai infra這塊餅,英偉達是除了基礎模型這一塊之外,所有部分都要吃進去。
軟體這部分,老黃的胃口,和英偉達的股價一樣大。
而在機器人市場,英偉達的野心更大。模型,數據,算力三要素都抓在手裡。沒趕上基礎語言模型的頭把交椅,基礎具身智能補齊。影影綽綽,一個具身智能版的壟斷巨頭已經在地平線上露頭了。
這裡面,每個環節,每個產品都對應著一個潛在的千億級市場。早年孤注一擲的好運賭王黃仁勛,靠著gpu壟斷得來的錢,開始做一場更大的賭局。
如果這場賭局裡,軟體或者機器人市場任意一方面通吃,那英偉達就是ai時代的谷歌,食物鏈上的頂級壟斷者。
不過看看英偉達gpu的利潤率,我們還是期待這樣的未來別來了。
還好,這對於老黃這輩子來講,也是他從沒操盤過的大賭局。勝負難料。