英偉達四代旗艦GPU算力猛獸暴漲900倍，刷新deepSeek世界紀錄！

2025年03月19日11:12:10 科技 1881

2小時激情演講！黃仁勛劇透四年晶元路線圖，Blackwell一年大賣超300萬塊。

作者 | 智東西編輯部

剛剛，黃仁勛宣布推出全新旗艦晶元Blackwell Ultra GPU，並劇透基於下一代Rubin GPU架構的Vera Rubin超級晶元、Vera Rubin NVL144機架和Rubin Ultra NVL576機架，全場爆發出熱烈的掌聲！

芯東西美國聖何塞3月18日現場報道，頂著熱烈的加州陽光，一年一度的「AI春晚」英偉達GTC大會盛大開幕。今日上午，英偉達創始人兼CEO黃仁勛穿著閃亮的皮衣，進行了一場激情澎湃的主題演講，一連亮出四代全新Blackwell Ultra、Rubin、Rubin Ultra、Feynman旗艦晶元，公布四年三代GPU架構路線圖，還多次提到中國大模型DeepSeek。

英偉達將每年升級全棧AI系統、發布一條新產品線，2026年、2027年切換到採用Rubin 8S HBM4、Rubin Ultra 16S HBM4e和Vera CPU，2028年推出採用下一代HBM的Feynman（費曼）平台，NVSwitch、Spectrum、CX網卡都將同步迭代，從而為千兆瓦AI工廠鋪平道路。

整場演講信息量爆棚，覆蓋加速計算、深度推理模型、AI智能體、物理AI、機器人技術、自動駕駛等在內的AI下一個風口，新發布涉及十大重點：

1、Vera Rubin、Rubin Ultra晶元：兩代旗艦晶元HBM內存升級，GPU「樂高拼裝術」日臻成熟，提前公布Vera Rubin NVL144機架、Rubin Ultra NVL576機架性能，最高FP4推理性能達到15EFLOPS，基於Rubin的AI工廠性能達到Hopper的900倍。

2、Blackwell Ultra晶元：全球首個288GB HBM3e GPU登場，發布GB300 NVL72機架、HGX B300 NVL16機架系統方案，一個機架能像單個大型GPU一樣運行。

3、數據中心AI超算：推出Blackwell Ultra DGX SuperPOD，採用全新DGX GB300和DGX B300系統，助力企業構建開箱即用的AI超級計算機，發布AI託管服務NVIDIA Instant AI Factory、AI數據中心運營和編排軟體NVIDIA Mission Control。

4、AI推理、AI智能體軟體：AI推理軟體Dynamo在運行DeepSeek-R1模型時，可將每個GPU生成的token數量提高超過30倍；全新Llama Nemotron推理模型系列中，Super 49B版本吞吐量達到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍；宣布向全球企業提供構建AI智能體的核心模塊；存儲龍頭們構建企業級AI數據平台。

5、個人AI超算：推出全球最小AI超算DGX Spark、高性能桌面級AI超算DGX Station，方便開發者本地微調或推理深度思考模型。

6、Blackwell進展：正在全面生產，銷售量是上一代Hopper的3倍。

7、工作站和伺服器GPU：上新RTX Pro Blackwell數據中心GPU、桌面級GPU、筆記本電腦GPU。

8、光電一體化封裝網路交換機：號稱「世界上最先進的網路解決方案」，可將AI工廠擴展到數百萬塊GPU。

9、物理AI/機器人：開源Isaac GR00T N1人形機器人基礎模型，與迪士尼研究院、谷歌DeepMind將合作開發開源物理引擎Newton。

10、電信AI和自動駕駛：與通用汽車一起為工廠和汽車構建GM AI，構建綜合全棧自動駕駛安全系統NVIDIA Halos。

值得一提的是，英偉達宣布Blackwell GPU創下滿血版DeepSeek-R1推理性能的世界紀錄。

單個配備8塊Blackwell GPU的NVIDIA DGX系統，可實現每位用戶每秒超過250個token，或每秒超過30000個token的最大吞吐量。

通過硬體和軟體的結合，英偉達自今年1月以來將DeepSeek-R1 671B模型的吞吐量提高了約36倍，相當於每個token的成本改善了約32倍。

今年GTC人氣火爆到史無前例，萬元起步的門票悉數售罄，超過25000名觀眾齊聚現場，幾乎整座聖何塞都染上了「英偉達綠」，從街巷、集市、高樓、餐廳、巴士到三輪車，到處都是醒目的英偉達GTC標識。

還有一個彩蛋，在黃仁勛主題演講開始前，SAP中心大屏幕上播放的5人對話暖場視頻中，畫面最右邊的正是前英特爾CEO帕特·基辛格，他的身份已經變成了Gloo董事長。

迪士尼機器人Blue作為黃仁勛主題演講的驚喜嘉賓壓軸出場，搖頭晃腦向黃仁勛撒嬌賣萌，還聽從黃仁勛的指令，乖乖站到了他的旁邊。

此外，本屆GTC大會特設China AI Day - 雲與互聯網線上中文專場，涵蓋大模型、數據科學、搜推廣等領域的前沿進展，演講企業包括位元組跳動、火山引擎、阿里雲、百度、螞蟻集團、京東、美團、快手、百川智能、賴耶科技、Votee AI。

芯東西帶你直擊英偉達GTC大會現場，一文看盡英偉達重磅發布和黃仁勛主題演講乾貨。

4月1-2日，智東西聯合主辦的2025中國生成式AI大會（北京站）將舉行。35+位嘉賓/企業已確認，將圍繞DeepSeek、大模型與推理模型、具身智能、AI智能體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名～

01 .

下一代Vera Rubin超級晶元明年登場！

三代AI工廠性能暴漲900倍

上午9點59分，黃仁勛閃現聖何塞SAP中心舞台，朝不同方向的觀眾席連放5個衝天炮，然後慢慢走下舞台。

在參會觀眾翹首等待11分鐘後，黃仁勛小步慢跑再度登場，笑容滿面地向全場觀眾打招呼，還帶觀眾雲參觀了下英偉達總部。

黃仁勛曬出了密密麻麻的GTC25企業logo，說幾乎每個行業都有代表企業出現在GTC現場。

至於為什麼要提前展示路線圖？黃仁勛說，構建AI工廠和AI基礎設施需要數年的規劃，不像買筆記本電腦，所以必須提前兩三年制定土地、電力、資本支出的計劃。

他公布了英偉達繼Hopper、Blackwell之後的下一代GPU架構——Rubin。這一命名來自於發現暗物質的女性科學先驅薇拉·魯賓（Vera Rubin）。

首先展示的是兩個機架級解決方案，Vera Rubin NVL144和Rubin Ultra NVL576。

Vera Rubin由Rubin GPU和Vera CPU組成。Vera CPU擁有88個定製Arm核心、176個線程。Rubin由兩塊掩模尺寸的GPU組成，擁有288GB HBM4內存，FP4峰值推理能力可達50PFLOPS。

Vera Rubin NVL144的FP4推理算力可達到3.6EFLOPS，FP8訓練算力可達到1.2EFLOPS，是今天新發布的GB300 NVL72的3.3倍，將於2026年下半年推出。

Rubin Ultra系統由Rubin Ultra GPU和Vera CPU組成。Rubin Ultra由4塊掩模尺寸的GPU組成，擁有1TB HBM4e內存，FP4峰值推理能力可達100PFLOPS。

Rubin Ultra NVL576的FP4峰值推理算力高達15EFLOPS，FP8訓練算力達到5EFLOPS，足足是GB300 NVL72的14倍，將於2027年下半年推出。

相較Hopper，基於Blackwell的AI工廠性能提高多達68倍，基於Rubin的AI工廠性能提高多達900倍。

02 .

新旗艦Blackwell Ultra：全球首個288GB HBM3e GPU，NVL72機架下半年問世

在萬眾期待中，英偉達新一代數據中心旗艦GPU Blackwell Ultra（GB300）正式登場。

Blackwell Ultra為AI推理時代而設計，是全球首個288GB HBM3e GPU，像拼樂高一樣通過先進封裝技術將2塊掩膜尺寸的GPU拼裝在一起，可實現多達1.5倍的FP4推理性能，最高15PFLOPS。

該GPU增強了訓練和測試時推理擴展，可輕鬆有效地進行預訓練、後訓練以及深度思考（推理）模型的AI推理，構建於Blackwell架構基礎之上，包括GB300 NVL72機架級解決方案和HGX B300 NVL16系統。

下一代模型可能包含數萬億參數，可以使用張量並行基於工作負載進行任務分配。如取模型切片在多塊GPU上運行、將Pipeline放在多塊GPU上、將不同專家模型放在不同GPU上，這就是MoE模型。

流水線並行、張量並行、專家並行的結合，可以取決於模型、工作量和環境，然後改變計算機配置的方式，以便獲得最大吞吐量，同時對低延遲、吞吐量進行優化。

黃仁勛稱，NVL72的優勢就在於每塊GPU都可以完成上述任務，NVLink可將所有GPU變成單個大型GPU。

GB300 NVL72連接了72塊Blackwell Ultra GPU和36塊Grace CPU，採用機架式設計，密集FP4推理算力達到1.1EFLOPS，FP8訓練算力達到0.36EFLOPS，是GB200 NVL72的1.5倍；總計有2倍的注意力指令集、20TB HBM內存、40TB快內存、14.4TB/s CX8。

升級的GB300 NVL72設計，提高了能效和可服務性，通過降低成本和能耗來推進AI推理民主化，相比Hopper將AI工廠的收入機會提高50倍。

GB300 NVL72預計將在英偉達端到端全託管AI平台DGX Cloud上提供。

與Hopper相比，HGX B300 NVL16在大語言模型上的推理速度加快至11倍，計算能力增加到7倍，內存增至4倍。

Blackwell Ultra系統與Spectrum-X乙太網、Quantum-X800 InfiniBand平台無縫集成，通過ConnectX-8 SuperNIC，每塊GPU有800Gb/s的數據吞吐量，提供了一流的遠程直接內存訪問功能，使AI工廠和雲數據中心可在沒有瓶頸的情況下處理AI推理模型。

英偉達合作夥伴預計將從2025年下半年起提供基於Blackwell Ultra的產品。

亞馬遜雲科技、谷歌雲、微軟Azure、甲骨文OCI、CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta、YTL等雲服務提供商將首批提供Blackwell Ultra驅動的實例。

03 .

數據中心AI超算：全新DGX SuperPOD，將AI工廠性能提升至70倍

英偉達DGX SuperPOD與DGX GB300系統採用GB300 NVL72機架設計，提供交鑰匙AI工廠。

英偉達將NVIDIA DGX SuperPOD稱作「全球最先進的企業級AI基礎設施」，旨在為實時推理和訓練提供強大的計算能力。

企業可採用全新DGX GB300和DGX B300系統，集成英偉達網路，獲得開箱即用的DGX SuperPOD AI超級計算機。

DGX SuperPOD提供FP4精度和更快的AI推理速度，可擴展到數萬塊Grace Blackwell Ultra超級晶元，預計將在今年晚些時候從合作夥伴處可獲得。

DGX GB300系統採用英偉達Grace Blackwell Ultra超級晶元（包含36塊Grace CPU和72塊Blackwell GPU），以及一個為先進推理模型上的實時智能體響應而設計的機架級液冷架構。

與採用Hopper系統和38TB快內存構建的AI工廠相比，DGX GB300系統可提供70倍的AI性能。

每個DGX GB300系統配備72個ConnectX-8 SuperNIC，加速網路速度高達800Gb/s，是上一代性能的2倍。

18個BlueField-3 DPU搭配Quantum-X800 InfiniBand或Spectrum-X乙太網，可加速大規模AI數據中心的性能、能效和安全。

與上一代Hopper相比，DGX B300系統可提供11倍的AI推理性能和4倍的AI訓練加速。

每個系統提供2.3TB HBM3e內存，包含由8個英偉達ConnectX-8 SuperNIC和2個BlueField-3 DPU組成的先進網路。

英偉達還推出了一項以DGX SuperPOD為特色的託管服務NVIDIA Instant AI Factory，計劃在今年晚些時候開始上市，並發布適用於Blackwell架構DGX系統的AI數據中心運營和編排軟體NVIDIA Mission Control。

Equinix將率先在其位於全球45個市場的預配置液冷或風冷AI-ready數據中心提供新DGX GB300和DGX B300系統。

04 .

發布AI推理軟體、新推理模型，

DeepSeek-R1猛刷存在感

企業正競相建設可擴展的AI工廠，以滿足AI推理和推理時擴展的處理需求。英偉達推出開源的AI推理軟體NVIDIA Dynamo，其本質上就是AI工廠的操作系統。

Dynamo（發電機）的命名來源是，發電機是開啟上一次工業革命的第一台工具，Dynamo也是現在一切開始的地方。

NVIDIA Dynamo是一個用於大規模服務推理模型的AI推理軟體，旨在為部署推理模型的AI工廠實現token收入最大化。

它能夠跨數千個GPU編排和加速推理通信，並使用分區分服務來分離不同GPU上大語言模型的處理和生成階段，使每個階段可根據特定需求獨立優化，並確保GPU資源的最大利用率。

為了提高推理性能，英偉達採用Blackwell NVL8設計，之後又引入新的精度，用更少的資源量化模型。

未來每個數據中心都會受到電力限制，數據中心的收入與之掛鉤，因此英偉達用NVL72進行擴展，打造更節能的數據中心。

在GPU數量相同的情況下，Dynamo可將Hopper平台上運行Llama模型的AI工廠性能和收益翻倍。在由GB200 NVL72機架組成的大型集群上運行DeepSeek-R1模型時，Dynamo的智能推理優化也可將每個GPU生成的token數量提高30倍以上。

基於Dynamo，相比Hopper，Blackwell性能提升25倍，可以基於均勻可互換的可編程架構。在推理模型中，Blackwell性能是Hopper的40倍。

黃仁勛說：「這就是我以前為什麼說，當Blackwell批量發貨時，你不要把Hopper送人。」他調侃自己是「首席收入官」。

「買得越多，省得越多，賺得越多。」黃仁勛的經典帶貨名言又來了，這次他特彆強調AI工廠收入的提高，100MW AI工廠會包含45000顆GPU Die、1400個機架、每秒生成3億個token。

相比Hopper，Blackwell能實現40倍的性能提升，對應產生40倍的token收入。

為了提升推理性能，NVIDIA Dynamo加入了一些功能，使其能夠提高吞吐量的同時降低成本。

它可以根據不斷變化的請求數量和類型，動態添加、移除、重新分配GPU，並精確定位大型集群中的特定GPU，從而更大限度地減少響應計算和路由查詢。

它還可以將推理數據卸載到成本更低的顯存和存儲設備上，並在需要時快速檢索這些數據，最大程度地降低推理成本。

Dynamo可將推理系統在處理過往請求時於顯存中保存的知識（稱為KV緩存），映射到潛在的數千個GPU中。然後，它會將新的推理請求路由到與所需信息匹配度最高的 GPU 上，從而避免昂貴的重新計算，並釋放GPU來響應新的請求。

該軟體完全開源並支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM，使企業、初創公司和研究人員能夠開發和優化在分離推理時部署AI模型的方法。

大模型公司Cohere計劃使用NVIDIA Dynamo為其Command系列模型中的AI智能體功能提供支持。

英偉達還基於Llama開發了全新Llama Nemotron推理模型系列，提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智能體任務的準確性兩個維度超過DeepSeek-R1，吞吐量達到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍。

這些模型現已開源，企業可以通過NIM下載至本地運行。

英偉達正為全球企業提供構建AI智能體的核心模塊，推動企業級AI技術的普及與創新。英偉達的Llama Nemotron可以在任何地方運行，包括DGX Spark、DGX Station以及OEM製造的伺服器上，甚至可以將其集成到任何AI智能體框架中。

AT&T正在開發公司專用的的AI智能體系統。未來，英偉達不僅會僱傭ASIC設計師，還會與Cadence合作，引入數字ASIC設計師來優化晶元設計。Cadence正在構建他們的AI智能體框架，英偉達的模型、NIM和庫已經深度集成到他們的技術中。Capital One、德勤、納斯達克、SAP、ServiceNow、Accenture、Amdocs等企業也將英偉達技術深度融入AI框架中。

黃仁勛還宣布存儲龍頭們構建企業級AI數據平台。原本企業的存儲系統是基於召回的，而如今的系統應該基於語義。基於語義的存儲系統時刻在嵌入原始數據，用戶使用數據時只需使用自然語言進行交互，便能找到需要的數據。

05 .

全球最小AI超算、桌面AI超算齊發，

把數據中心性能搬到手邊

NVIDIA DGX Spark和DGX Station是英偉達打造的個人AI計算機，讓開發者能在桌面上對大模型進行原型、微調、推理。

全球最小AI超級計算機DGX Spark前身是Project DIGITS，採用GB10 Grace Blackwell超級晶元、128GB統一系統內存、ConnectX-7 SmartNIC，AI算力可達1000 AI TOPS。

DGX Spark可以被用來微調或推理最新的AI推理模型，比如英偉達今天新發布的Cosmos推理世界基礎模型和GR00T N1機器人基礎模型。該AI超算的預訂今日起開放。

DGX Station是一款基於Blackwell Ultra的新型高性能桌面級超級計算機，為桌面帶來了數據中心級別的性能，用於AI開發，今年晚些時候可從英偉達製造合作夥伴處獲得。

這是第一個採用英偉達GB300 Grace Blackwell Ultra桌面超級晶元構建的台式機系統，擁有784GB超大統一系統內存，還有支持800Gb/s網路連接的ConnectX-8 SuperNIC，AI性能達到20PFLOPS。

06 .

Blackwell賣得超好！DeepSeek-R1

回答質量高，需要更多算力

Blackwell系統構建於英偉達強大的開發工具生態系統、CUDA-X庫、600多萬開發者和4000多個應用的基礎上，可在數千塊GPU上擴展性能，非常適合運行新的Llama Nemotron推理模型、AI-Q藍圖、AI企業級軟體平台。

黃仁勛說CUDA-X是GTC的全部意義所在。他展示了一張自己最喜歡的幻燈片，包含了英偉達構建的關於物理、生物、醫學的AI框架，包括加速計算庫cuPyNumeric、計算光刻庫cuLitho，軟體平台cuOPT、醫學成像庫Monaiearth-2、加速量子計算的cuQuantum、稀疏直接求解器庫cuDSS、開發者框架WARP等。

「我們已經達到加速計算的臨界點，CUDA讓這一切成為可能。」黃仁勛談道。

據他分享，英偉達正在全面生產Blackwell，有十幾家企業已生產和部署Blackwell系統。

2025年，英偉達已經向美國前四大雲服務提供商售出超過360萬塊Blackwell GPU，相比去年銷售Hopper的數量高出3倍，去年Hopper銷售量為130萬塊。

這些進展得益於英偉達對計算架構的根本性變革。

3年前的英偉達GPU尚未將NVLink獨立出來，導致單一系統體積和重量驚人，這代HGX系統8卡版本重達70磅，黃仁勛稱自己根本不可能將其舉起展示，而機架整體需要搭載4個8卡版本。這極大影響了數據中心的能效和可擴展性。

於是，英偉達決定將NVLink與GPU分離，以單獨的NVLink組件實現GPU間的全速通信。

分離後的系統採用了液冷技術，這意味著系統的體積可以被進一步壓縮，機櫃中能裝下更多的系統。

原本的系統零件約有6萬個，而升級後的系統零件達到了60萬個，相當於20輛汽車的零件數量。這一個機櫃的算力就達到了1EFLOPS，由5000根線纜連接，線纜總長達2英里。

英偉達大費周章將二者分離的原因，是為了實現極致的垂直擴展（Scale-Up），也就是擴展單一機櫃的算力。在目前的製造工藝限制下，根本不可能造出單體包含130萬億晶體管的系統。

而這一極致的解決方案，最終是為了解決一個終極的計算問題——推理。

黃仁勛認為，推理遠沒有想像中的那麼簡單，需要做好成本與性能的完美平衡，這一平衡直接影響了服務質量和盈利能力。

為了闡釋推理中的諸多考量因素，黃仁勛使用了一個坐標系。x軸代表每秒生成的token數量，Y軸代表系統的總吞吐量。

推理模型已經證明，生成的token數量越多，模型的表現就越好。

現場，黃仁勛演示了DeepSeek-R1和Llama 3.3 70B的對比。Llama這類非推理類模型雖然token用量更少，但回答質量較低，而耗費20倍token、150倍算力的推理模型，能對複雜問題給出高質量的準確回答。

但如果生成的速度不理想，也會影響用戶使用服務的意願，因此每秒生成的token數量需要儘可能高。數據中心還要儘可能地為更多用戶提供服務，這樣才能最大化收益。

曲線右上方就是理想中的解決方案，能在保證服務質量、服務規模的前提下，最大化收益。

為了實現效益最大化，需要儲備儘可能多的高速算力和配套系統。

07 .

上新數據中心、桌面、筆記本電腦GPU：

RTX Pro Blackwell系列

英偉達今天還發布了RTX Pro Blackwell系列工作站和伺服器GPU，提供加速計算、AI推理、光線追蹤和神經網路渲染技術，使其數據中心GPU從桌面到移動工作站提供動力。

英偉達RTX PRO Blackwell GPU特色包括：提供1.5倍吞吐量和新神經網路著色器的NVIDIA SM、性能翻倍的第四代RT核心、可提供4000 AI TOPS算力的第五代張量核心、更大更快的GDDR7內存、第九代NVIDIA NVENC、第六代NVIDIA NVENC、帶寬翻倍的第五代PCIe、DisplayPort 2.1、多實例GPU。

工作站和伺服器GPU內存高達96GB，筆記本電腦GPU內存達到24GB，使應用程序可更快運行，並使用更大更複雜的數據集。

RTX PRO 6000數據中心和桌面GPU可將單GPU安全分區成最多4個實例，5000系列桌面GPU可將單GPU安全分區成兩個實例。

新品包括：

1、數據中心GPU：RTX PRO 6000 Blackwell伺服器版，採用被動冷卻熱設計，每台伺服器最多可配置8塊GPU，可與NVIDIA vGPU軟體結合為虛擬化環境中的AI工作負載提供動力，預計將在今年下半年推出。

2、桌面GPU：RTX PRO 6000 Blackwell工作站版, RTX PRO 6000 Blackwell Max-Q工作站版, 將於4月起通過分銷合作夥伴提供，5月起由製造商提供；RTX PRO 5000 Blackwell，RTX PRO 4500 Blackwell，RTX PRO 4000 Blackwell，將從夏季通過分銷夥伴提供。

3、筆記本電腦GPU：RTX PRO 5000 Blackwell，RTX PRO 4000 Blackwell，RTX PRO 3000 Blackwell，RTX PRO 2000 Blackwell，RTX PRO 1000 Blackwell，RTX PRO 500 Blackwell，將從今年晚些時候由戴爾、惠普、聯想、雷蛇開始提供。

新筆記本電腦GPU還支持最新NVIDIA Blackwell Max-Q技術，可智能且持續地優化筆記本電腦性能和能效。

08 .

推出光電一體化封裝網路交換機，

將AI工廠擴展至數百萬GPU

隨著AI工廠發展到前所未有的規模，AI網路基礎設施也必須升級。英偉達將其光交換機稱作「世界上最先進的網路解決方案」。

英偉達今日發布全新共封裝（CPO）的NVIDIA Spectrum-X和Quantum-X硅光網路交換機，可將AI工廠擴展到數百萬個GPU。

與傳統方法相比，英偉達光交換機集成了光學創新，將激光器減少至1/4，每埠1.6Tb/s，可提供3.5倍的能效、63倍的信號完整性、10倍的大規模網路彈性、1.3倍快的部署時間。

黃仁勛談道，英偉達希望將乙太網的水平提升至InfiniBand級別，這意味著更極致的擁塞控制、延遲控制。

NVIDIA硅光網路交換機會被用於NVIDIA Spectrum-X Photonics乙太網平台和Quantum-X Photonics InfiniBand平台。

相較傳統乙太網，Spectrum-X乙太網網路平台可為多租戶、超大規模AI工廠提供1.6倍的帶寬密度。

如圖，Spectrum-X光交換機將在2026年推出，有多種配置，包括128個800Gb/s埠或512個200Gb/s埠，總帶寬可達到100Tb/s，以及512個800Gb/s或2048個200Gb/s埠，總吞吐量可達400Tb/s。

Quantum-X光交換機預計將在今年晚些時候上市，提供144個基於200Gb/s SerDes的800Gb/s InfiniBand埠，並採用液冷設計對板載硅光器件進行高效散熱。其AI計算網的速度是上一代產品的2倍，擴展性是上一代產品的5倍。

具體來看，Quantum-X光交換機的帶寬達到115.2Tb/s。

搭載交換機管理模塊，並使用了液冷技術。

該系統搭載Quantum-X800 ASIC晶元，並配備6個光學子組件和18個硅光晶元引擎。

Quantum-X800 ASIC的總吞吐量達到28.8Tb/s，採用台積電4nm工藝，擁有1070億顆晶體管，網路內自帶3.6 TFLOPS FP8 SHARP算力。

324個光學連接器串聯起這一系統，總計有36個激光輸入和288個數據鏈接，內置光纖管理功能。

其中，光子組件是可拆卸的，每個組件擁有3個硅光晶元引擎，總吞吐量為4.8Tb/s。

每個硅光晶元引擎擁有200GB/s的微光調製器，總吞吐量為1.6Tb/s，實現3.5倍節能。

硅光晶元引擎採用台積電6nm製程工藝，擁有2.2億顆晶體管，1000個集成的光學器件。

這一系統還擁有多平面光學數據連接器，擁有1152個單模光纖。

外部光源擁有8個集成激光系統，具備自動溫度檢測和波長、能耗穩定功能。

上述部件的總和，便是下圖這一擁有4460億顆晶體管的龐大系統。

台積電的硅光子解決方案結合了其在先進晶元製造和台積電SoIC 3D晶元堆疊方面的優勢，幫助英偉達釋放AI國產擴展到百萬GPU甚至更多。

黃仁勛做了一個換算，這一系統的應用能在單個數據中心中節省數十個Megawatts的能源，而60Megawatts就相當於10台Rubin Ultra機架的能耗。

09 .

物理AI與機器人：發人形機器人基礎模型，

英偉達迪士尼DeepMind聯手

物理AI正在改變價值50萬億美元的行業，在英偉達三台計算機上構建數十億個機器人。英偉達將機器人視作下一個數萬億美元產業。

物理AI也有三大Scaling Laws。

黃仁勛宣布推出開源、預訓練、可定製的Isaac GR00T N1人形機器人基礎模型，旨在加快人形機器人的開發，已提前獲得該模型的公司包括波士頓動力、Agility Robotics、Mentee Robotics、Neura Robotics等。

英偉達與迪士尼研究院、谷歌DeepMind將合作開發開源物理引擎Newton。

黃仁勛談道，物理AI和機器人技術發展得很快，但也面臨著和大模型同樣的挑戰，就是如何獲得數據、如何擴展讓機器人更聰明。

基於此，英偉達為Omniverse添加了兩項技術。

一是擴展AI的生成能力和理解物理世界的生成模型，也就是Cosmos。Cosmos可以生成無限數量的環境數據。

二是，機器人的可驗證回報是物理定律，因此需要設計用於模擬真實世界中的物理現象的物理引擎。這一物理引擎需要被設計用於訓練觸覺反饋、精細運動技能和執行器控制。也就是上面迪士尼機器人Blue已經搭載的物理引擎。

在機器人開發中，英偉達Omniverse可以生成大量不同的合成數據，開發人員根據不同領域聚合現實世界的感測器和演示數據，將原始捕獲的數據乘以大量照片級的多樣化數據，然後使用Isaac Lab增強數據集對機器人策略進行後訓練，讓其通過模型放行為學習新技能。

實地測試中，開發人員使用Omniverse動態模擬真實環境進行測試。現實世界的操作需要多個機器人協同工作，Mega和Omniverse允許開發人員大規模測試。

10 .

電信與汽車：為6G開發AI原生無線網路，

發布全棧自動駕駛安全系統

黃仁勛認為，未來的AI不會限於雲端，而將會無處不在。

要將加速計算帶到真實世界的每一個場景之中，不僅需要晶元和CUDA這樣的庫，還需要為每個場景建立對應的軟體棧——如企業、工廠、機器人、GPU雲等應用場景。

英偉達認為AI將對電信行業產生深遠影響，6G網路進入倒計時，下一個時代將是AI原生無線網路，包括用於無線電信號處理的AI/ML、神經網路模型。這將釋放頻譜效率的巨大收益。

現場，黃仁勛宣布英偉達與Cisco、T-Mobile等幾家志同道合的電信龍頭合作，建立由AI驅動的電信系統，為6G開發AI原生無線網路，以NVIDIA AI Aerial平台為基礎，確保下一代無線網路將是AI原生的。

其目標是研究和開發一個AI原生、高光譜效率、開放和差異化的6G無線平台，在頻譜效率、電源效率、運營效率、安全性、成本效益、創收機會方面設置新基準，可用於全球部署。

隨後黃仁勛將話題轉向自動駕駛。

他回憶道，當初AlexNet的出現，讓英偉達決定開始研究自動駕駛技術，一轉眼10年已逝，如今英偉達的產品幾乎出現在所有自動駕駛汽車之中。

黃仁勛宣布，通用汽車將會成為英偉達最新的合作夥伴，在生產、設計、模擬和車機中應用英偉達的AI技術。英偉達和通用汽車將協力為工廠和汽車構建GM AI。

自動駕駛的時代已經到來，但安全也是其中重要的一環。

對此，英偉達發布綜合全棧自動駕駛安全系統NVIDIA Halos。英偉達自動駕駛技術的全棧代碼將交由第三方進行安全檢驗，確保這些技術能充分反映現實世界的多元性。

英偉達的自動駕駛模型採用蒸餾技術開發、表現較好但速度較慢的模型會逐漸將知識傳遞給表現尚未完善、但速度較快的模型。此外，有大量數據被轉換成了3D場景，可用於虛擬環境中的模擬。

推理模型也被引入了自動駕駛領域。

如今，在英偉達Omniverse和Cosmos中，自動駕駛模型能從變化中學習並自我改進。Cosmos能根據圖像建立現實世界的4D模型（包含圖像分割），並通過計算機模擬同一場景的不同狀況，比如雨天、雪天、夜晚等等，這將進一步提升自動駕駛模型的能力。

例如，在下方案例中，用戶輸入了一則指令，要求模型生成冬季城市環境中，一輛汽車打開雨刮器，左轉時的畫面。在經過推理後，模型生成的畫面極為逼真，能作為高質量數據加到自動駕駛模型訓練過程中。

11 .

下一波浪潮是物理AI，

數據中心建設支出將達1萬億美元

黃仁勛回顧說，在開始研究GeForce 25年後，GeForce已經在全球範圍內售罄。GeForce將支持AI的CUDA帶向世界，現在AI徹底改變了計算機圖形學。

AI在10年間已經取得了巨大進步。2023年的重大突破是AI智能體（AI Agents），AI智能體可以對如何回答或者解決問題進行推理、在任務中進行規劃、理解多模態信息、從網站中的視頻中學習等，然後通過這些學到的學習來執行任務。

下一波浪潮是物理AI，可以理解摩擦、慣性和因果關係，使機器人技術成為可能，開闢出新的市場機會。

關於AI智能體和物理AI有幾個核心問題：一是如何解決數據問題，AI需要數據驅動，需要數據來學習、獲得知識；二是如何解決訓練問題，AI需要以超人的速度、以人類無法達到的規模進行學習；三是如何擴展實現Scaling Law，如何找到一種演算法讓AI更聰明。

這大大加快了目前所需的計算量。背後有兩個原因：

首先從AI可以做什麼開始，AI可以逐步分解問題、以不同方式解決同樣問題、為答案進行一致性檢查等。

當AI基於思維鏈進行一步步推理、進行不同的路徑規劃時，其不是生成一個token或一個單詞，而是生成一個表示推理步驟的單詞序列，因此生成的token數量會更多，甚至增加100倍以上。

三大AI Scaling Laws（預訓練、後訓練、測試時）對計算提出指數級需求。隨著計算成本增加，需要全棧創新來降低成本/tokens。

黃仁勛解釋說，模型更複雜，生成的token多10倍，為了保證模型的響應性和交互性，因此計算速度必須提高10倍。

其次是關於如何教AI。教會AI如何推理的兩個基本問題是數據從哪裡來、如何不受限制學習，答案就是強化學習。

人類歷史上已經明確了二次方程的解法、數獨、勾股定理等諸多知識，基於數百個這樣的案例可以生成數百萬個例子讓AI去解決，然後使用強化學習來獎勵。這個過程中，AI需要處理數百萬個不同問題、進行數百次嘗試，而每一次嘗試都會生成數萬個token，這些都加到一起，就會達到數萬億個token。

這兩件事帶來了巨大的計算挑戰。

AI變得更聰明，使得訓練這些模型所需的計算量大幅增長。黃仁勛預計2030年末，數據中心建設支出將達到1萬億美元。

這背後的第一個動態變化是，通用計算已經用完，業界需要新的計算方式，世界將經歷手動編碼軟體到機器學習軟體的平台轉變。

第二個變化是，人們越來越認識到軟體的未來需要大量投資。這是因為計算機已經成為token的生成器，基於生成式的計算構建AI工廠，然後在AI工廠里生成tokens並重組為音樂、文字、視頻、化學品等各種類型的信息。

目前，拐點正在全球數據中心的建設中發生。

12 .

結語：AI行業風向標火爆開場，

黃仁勛或驚喜現身夜市

作為AI行業風向標，英偉達GTC 2025大會將舉辦超過1000場會議、匯聚2000名演講嘉賓和近400家參展商，涵蓋大語言模型、物理AI、雲計算、科學發現、氣候研究、醫療健康、網路安全、人形機器人、自動駕駛等主題，並將舉辦首屆量子日，將彙集全球量子計算界和業內重要人物，與黃仁勛共同探討量子計算的現狀和未來。

現場參會者能體驗各種精心策劃的活動，包括數十場覆蓋各個行業的演示、實戰培訓、自動駕駛汽車展覽和試駕，還有集結20家當地供應商和手藝人製作的小吃和商品的GTC夜市，盲猜一波酷愛逛夜市的黃仁勛會驚喜現身。

智東西/芯東西將持續放送更多GTC 2025現場報道，敬請關注。