黄仁勋在gtc大会演讲中提及,推理让算力需求暴增100倍
腾讯科技特约作者 苏扬、郝博阳
编辑 郑可君
过去两届gtc大会,英伟达市值为7000亿美元、2.7万亿美元,今年gtc期间市值为2.8万亿美元,此前一度冲至3.6万亿美元。
从7000亿到3.6万亿,是一个有关“算力共识”的故事,而从3.6万亿回落到2.8万亿,反映的则是“算力分歧”。
不过,作为ai时代的“卖铲人”,黄仁勋和他的英伟达,始终坚信的是——算力永不眠。
今天的gtc大会上,黄仁勋拿出了全新的blackwell ultra gpu,以及在此基础上衍生的应用于推理、agent的服务器sku,也包括基于blackwell架构的rtx全家桶,这一切都与算力有关,但接下来更重要的是,英伟达还需要搞搞新意思——如何将源源不断算力,合理有效的消耗掉。
在黄仁勋的眼里,通往agi需要算力,具身智能机器人需要算力,构建omniverse与世界模型更需要源源不断的算力,至于最终人类构建一个虚拟的“平行宇宙”,需要什么量级的算力,英伟达给了一个泛泛的答案——过去的100倍。
为了支撑自己的观点,黄仁勋在gtc现场晒了一组数据——2024年美国前四云厂总计采购130万颗hopper架构芯片,到了2025年,这一数据飙升至360万颗blackwell gpu。
黄仁勋在gtc现场称美国前四大云厂仍然在大力投资算力基础设施
以下是腾讯科技整理的英伟达gtc 2025大会的一些核心要点:
01 blackwell全家桶上线
1)年度“核弹”blackwell ultra在挤牙膏
英伟达去年gtc发布blackwell架构,并推出gb200芯片,今年的正式名称做了微调,不叫之前传言的gb300,直接就称之为blakwell ultra。
但从硬件来看,就是在去年基础上更换了新的hbm内存。一句话理解就是,blackwell ultra= blackwell大内存版本。
blackwell ultra由两颗台积电n4p(5nm)工艺,blackwell 架构芯片+grace cpu封装而来,并且搭配了更先进的12层堆叠的hbm3e内存,显存提升至为288gb,和上一代一样支持第五代nvlink,可实现1.8tb/s的片间互联带宽。
nvlink历代性能参数
基于存储的升级,blackwell gpu的fp4精度算力可以达到15petaflops,基于attention acceleration机制的推理速度,比hopper架构芯片提升2.5倍。
2)blackwell ultra nvl72:ai推理专用机柜
blackwell ultra nvl72官方图
和gb200 nvl72一样,英伟达今年也推出了类似的产品blackwell ultra nvl72机柜,一共由18个计算托盘构成,每个计算托盘包含4颗blackwell ultra gpu+2颗grace cpu,总计也就是72颗blackwell ultra gpu+36颗grace cpu,显存达到20tb,总带宽576tb/s,外加9个nvlink交换机托盘(18颗nvlink 交换机芯片),节点间nvlink带宽130tb/s。
机柜内置72张cx-8网卡,提供14.4tb/s带宽,quantum-x800 infiniband和spectrum-x 800g以太网卡则可以降低延迟和抖动,支持大规模ai集群。此外,机架还整合了18张用于增强多租户网络、安全性和数据加速bluefield-3 dpu。
英伟达说这款产品是“为ai推理时代”专门定制,应用场景包括推理型ai、agent以及物理ai(用于机器人、智驾训练用的数据仿真合成),相比前一代产品gb200 nvl72的ai性能提升了1.5倍,而相比hopper架构同定位的dgx机柜产品,可以为数据中心提供50倍增收的机会。
根据官方提供的信息,6710亿参数deepseek-r1的推理,基于h100产品可实现每秒100tokens,而采用blackwell ultra nvl72方案,可以达到每秒1000 tokens。
换算成时间,同样的推理任务,h100需要跑1.5分钟,而blackwell ultra nvl72 15秒即可跑完。
blackwell ultra nvl72和gb200 nvl72硬件参数
根据英伟达提供的信息,blackwell nvl72相关产品预计在2025年下半年上市,客户包括服务器厂商、云厂、算力租赁服务商几大类:
服务器厂商:cisco/dell/hpe/lenovo/超微等15家制造商
云厂:aws/google cloud/azure/oracle云等主流平台
算力租赁服务商:coreweave/lambda/yotta等
3)提前预告真“核弹”gpu rubin芯片
按照英伟达的路线图,gtc2025的主场就是blackwell ultra。
但是从观感上,对比blackwell的硬件,应该有很多人会觉得英伟达也在挤牙膏,但没关系,黄仁勋再一次预告了2026年上市的基于rubin架构的下一代gpu以及更强的机柜vera rubin nvl144——72颗vera cpu+144颗 rubin gpu,采用288gb显存的hbm4芯片,显存带宽13tb/s,搭配第六代nvlink和cx9网卡。
这个产品有多强呢?fp4精度的推理算力达到了3.6exaflops,fp8精度的训练算力也达到了1.2exaflops,性能是blackwell ultra nvl72的3.3倍。
如果你觉得还不够,没关系,2027年还有更强的 rubin ultra nvl576机柜,fp4精度的推理和fp8精度的训练算力分别是15exaflops和5exaflops,14倍于blackwell ultra nvl72。
英伟达官方提供的rubin ultra nvl144和rubin ultra nvl576渲染图及参数
4)blackwell ultra版dgx super pod“超算工厂“
对于那些现阶段blackwell ultra nvl72都不能满足需求,又不需要搭建超大规模ai集群的客户,英伟达的解决方案是基于blackwell ultra、即插即用的dgx super pod ai超算工厂。
作为一个即插即用的ai超算工厂,dgx super pod主要面向专为生成式ai、ai agent和物理模拟等ai场景,覆盖从预训练、后训练到生产环境的全流程算力扩展需求,equinix作为首个服务商,提供液冷/风冷基础架构支持。
由blackwell ultra构建的dgx superpod
基于blackwell ultra定制的dgx super pod分两个版本:
内置dgx gb300(grace cpu ×1+blackwell gpu ×1) 的dgx superpod,总计288颗grace cpu+576颗 blackwell ultra gpu,提供300tb的快速内存,fp4精度下算力为11.5exaflops
内置dgx b300的dgx superpod,这个版本不含grace cpu芯片,具备进一步的扩展空间,且采用的是风冷系统,主要应用场景为普通的企业级数据中心
5)dgx spark与dgx station
今年1月份,英伟达在ces上晒了一款售价3000美元的概念性的ai pc产品——project digits,现在它有了正式名称dgx spark。
产品参数方面,搭载gb10芯片,fp4精度下算力可以达到1petaflops,内置128gb lpddr5x 内存,cx-7网卡,4tb nvme存储,运行基于linux定制的dgx os操作系统,支持pytorch等框架,且预装了英伟达提供的一些基础ai软件开发工具,可以运行2000亿参数模型。整机的尺寸和mac mini的大小接近,两台dgx spark互联,还可以运行超过4000亿参数的模型。
虽然我们说它是ai pc,但本质上仍然属于超算范畴,所以被放在了dgx产品系列当中,而不是rtx这样的消费级产品里面。
不过也有人吐槽这款产品,fp4的宣传性能可用性低,换算到fp16精度下只能跟rtx 5070,甚至是250美元的arc b580对标,因此性价比极低。
dgx spark计算机与dgx station工作站
除了拥有正式名称的dgx spark,英伟达还推出了一款基于blackwell ultra的ai工作站,这个工作站内置一颗grace cpu和一颗blackwell ultra gpu,搭配784gb的统一内存、cx-8网卡,提供20petaflops的ai算力(官方未标记,理论上也是fp4精度)。
6)rtx横扫ai pc,还要挤进数据中心
前面介绍的都是基于grace cpu和blackwell ultra gpu的产品sku,且都是企业级产品,考虑到很多人对rtx 4090这类产品在ai推理上的妙用,英伟达本次gtc也进一步强化了blackwell和rtx系列的整合,推出了一大波内置gddr7内存的ai pc相关gpu,覆盖笔记本、桌面甚至是数据中心等场景。
桌面gpu:,包括rtx pro 6000 blackwell 工作站版、rtx pro 6000 blackwell max-q工作站版、rtx pro 5000 blackwell、rtx pro 4500 blackwell 以及rtx pro 4000 blackwell
笔记本gpu: rtx pro 5000 blackwell、rtx pro 4000 blackwell、rtx、pro 3000 blackwell、rtx pro 2000 blackwell、rtx pro 1000 blackwell以及rtx pro 500 blackwell
数据中心 gpu:nvidia rtx pro 6000 blackwell服务器版
英伟达针对企业级计算打造的ai“全家桶”
以上还只是部分基于blackwell ultra芯片针对不同场景定制的sku,小到工作站,大到数据中心集群,英伟达自己将其称之为“blackwell family”(blackwell家族),中文翻译过来“blackwell全家桶”再合适不过。
02 英伟达photonics:站在队友肩膀上的cpo系统
光电共封模块(cpo)的概念,简单来说就是将交换机芯片和光学模块共同封装,可实现光信号转化为电信号,充分利用光信号的传输性能。
在此之前,业界就一直在讨论英伟达的cpo网络交换机产品,但一直迟迟未上线,黄仁勋在现场也给了解释——由于在数据中心中大量使用光纤连接,光学网络的功耗相当于计算资源的10%,光连接的成本直接影响着计算节点的scale-out网络和ai性能密度提升。
gtc上展示的两款硅光共封芯片quantum-x、spectrum-x参数
今年的gtc英伟达一次性推出了quantum-x硅光共封芯片、spectrum-x硅光共封芯片以及衍生出来的三款交换机产品:quantum 3450-ld、spectrum sn6810和spectrum sn6800。
quantum 3450-ld:144个800gb/s端口,背板带宽115tb/s,液冷
spectrum sn6810:128个800gb/s端口,背板带宽102.4tb/s,液冷
spectrum sn6800:512个800gb/s端口,背板带宽409.6tb/s,液冷
上述产品统一归类到“nvidia photonics”,英伟达说这是一个基于cpo合作伙伴生态共创研发的平台,例如其搭载的微环调制器(mrm)是基于台积电的光引擎优化而来,支持高功率、高能效激光调制,并且采用可拆卸光纤连接器。
比较有意思的是,根据之前业内的资料,台积电的微环调制器(mrm)是其与博通基于3nm工艺以及cowos等先进封装技术打造而来。
按照英伟达给的数据,整合光模块的photonics交换机相比传统交换机,性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的扩展弹性。
03 模型效率pk deepseek,软件生态发力ai agent
黄仁勋在现场描绘ai infra的“大饼”
1)nvidia dynamo,英伟达在推理领域构建的新cuda
nvidia dynamo绝对是本场发布的软件王炸。
它是一个专为推理、训练和跨整个数据中心加速而构建的开源软件。dynamo的性能数据相当震撼:在现有hopper架构上,dynamo可让标准llama模型性能翻倍。而对于deepseek等专门的推理模型,用上dynamo的blackwell能让性能提升达到hopper的40倍。
黄仁勋演示加了dynamo的blackwell能超过25倍的hopper
黄仁勋表示,这就是ai工厂未来的软件。它会替代现在的saas,成为agent的基础软件。
dynamo的这些改进主要得益于分布化。它将llm的不同计算阶段(理解用户查询和生成最佳响应)分配到不同gpu,使每个阶段都能独立优化,提高吞吐量并加快响应速度。
dynamo的系统架构
比如在输入处理阶段,也就是预填充阶段,dynamo能够高效地分配gpu资源来处理用户输入。系统会利用多组gpu并行处理用户查询,希望gpu处理的更分散、更快。dynamo用fp4模式调用多个gpu同时并行“阅读”和“理解”用户的问题,其中一组gpu处理“第二次世界大战”的背景知识、另一组处理“起因“相关的历史资料、第三组处理“经过“的时间线和事件,这一阶段像是多个研究助理同时查阅大量资料。
而在生成输出tokens,也就是解码阶段,则需要让gpu更专注和连贯。至于如何选合适的gpu,是通过“smart router”将请求定向到已缓存相关kv(键值)的gpu上,这可以避免重复计算,极大地提高了处理速度。dynamo用专门的gpu整合前一阶段分散gpu收集的资料,比起gpu数量,这个阶段更需要更大的带宽去吸取前一阶段的思考信息。dynamo优化了gpu间通信和资源分配,确保连贯且高效的响应生成。它充分利用了nvl72架构的高带宽nvlink通信能力,最大化令牌生成效率。
这一套架构和kimi的mooncake架构非常类似,但在底层infra上英伟达做了更多支持。mooncake大概可以提升5倍左右,但dynamo在推理上提升的更明显。
比如dynamo的几项重要创新中,“gpu planner”能够根据负载动态调整gpu分配,“低延迟通信库”优化了gpu间数据传输,而“内存管理器”则智能地将推理数据在不同成本级别的存储设备间移动,进一步降低运营成本。而智能路由器,llm感知型路由系统,将请求定向到最合适的gpu,减少重复计算。这一系列能力都使得gpu的负载达到最佳化。
利用这一套软件推理系统能够高效扩展到大型gpu集群,最高可以使单个ai查询无缝扩展到多达1000个gpu,以充分利用数据中心资源。
而对于gpu运营商来讲,这个改进使得每百万令牌成本显著下降,而产能大幅提升。同时单用户每秒获得更多token,响应更快,用户体验改善。
用dynamo,让服务器达到吞吐量和应答速度间的黄金收益线
与cuda作为gpu编程的底层基础不同,dynamo是一个更高层次的系统,专注于大规模推理负载的智能分配和管理。它负责推理优化的分布式调度层,位于应用程序和底层计算基础设施之间。但就像cuda十多年前彻底改变了gpu计算格局,dynamo也可能成功开创推理软硬件效率的新范式。
dynamo完全开源,支持从pytorch到tensor rt的所有主流框架。开源了也照样是护城河。和cuda一样,它只对英伟达的gpu有效果,是nvidia ai推理软件堆栈的一部分。
用这个软件升级,nvidia构筑了自己反击groq等专用推理aisc芯片的城防。必须软硬搭配,才能主导推理基础设施。
2)llama nemotron新模型秀高效,但还是打不过deepseek
虽然在服务器利用方面,dynamo 确实相当惊艳,但在训练模型方面英伟达还和真内行有点差距。
英伟达在这次gtc上用一款新模型llama nemotron,主打高效、准确。它是由llama系列模型衍生而来。经过英伟达特别微调,相较于llama本体,这款模型经过算法修剪优化,更加轻量级,仅有48b。它还具有了类似o1的推理能力。与claude 3.7和grok 3一样,llama nemotron模型内置了推理能力开关,用户可选择是否开启。这个系列分为三档:入门级的nano、中端的super和旗舰ultra,每一款都针对不同规模的企业需求。
llama nemotron的具体数据
说到高效,这一模型的微调数据集完全英伟达自己生成的合成数据组成,总数约60b token。相比deepseek v3用130万h100小时完整训练,这个仅有deepseek v3 1/15参数量的模型只是微调就用了36万h100小时。训练效率比deepseek差一个等级。
在推理上效率上,llama nemotron super 49b模型确实比上一代模型表现要好得多,其token吞吐量能达到llama 3 70b 的5倍,在单个数据中心gpu下它可以每秒吞吐3000 token以上。但在deepseek 开源日最后一天公布的数据中,每个h800 节点在预填充期间平均吞吐量约为73.7k tokens/s 输入(包括缓存命中)或在解码期间约为14.8k tokens/s 输出。两者差距还是很明显的。
从性能上看,49b的llama nemotron super 在各项指标中都超过了70b的经deepseek r1蒸馏过的llama 70b模型。不过考虑到最近qwen qwq 32b模型之类的小参数高能模型频繁发布,llama nemotron super 估计在这些能和r1本体掰手腕的模型里难以出彩。
最要命的是,这个模型,等于实锤了deepseek也许比英伟达更懂在训练过程中调教gpu。
3)新模型只是英伟达ai agent生态的前菜,nvida aiq才是正餐
英伟达为什么要开发一个推理模型呢?这主要是为了老黄看中的ai下一个爆点——ai agent做准备。自从openai、claude等大厂逐步通过deepreasearch、mcp建立起了agent的基础后,英伟达明显也认为agent时代到来了。
nvida aiq项目就是英伟达的尝试。它直接提供了一个以llama nemotron推理模型为核心的规划者的ai agent现成工作流。这一项目归属于英伟达的blueprint(蓝图)层级,它是指一套预配置的参考工作流、是一个个模版模板,帮助开发者更容易地整合nvidia的技术和库。而aiq就是英伟达提供的agent模版。
nvida aiq的架构
和manus一样,它集成网络搜索引擎及其他专业ai代理等外部工具,这让这个agent本身可以既能搜索,又能使用各种工具。通过llama nemotron推理模型的规划,反思和优化处理方案,去完成用户的任务。除此之外,它还支持多agent的工作流架构搭建。
基于这套模版做的servicenow系统
比manus更进一步的是,它具有一个复杂的针对企业文件的rag系统。这一系统包括提取、嵌入、向量存储、重排到最终通过llm处理的一系列步骤,能保证企业数据为agent所用。
在此之上,英伟达还推出了ai数据平台,把ai推理模型接到企业数据的系统上,形成一个针对企业数据的deepreasearch。使得存储技术的重大演进,使得存储系统不再仅是数据的仓库,而是拥有主动推理和分析能力的智能平台。
ai data platform的构成
另外,aiq非常强调可观察性和透明度机制。这对于安全和后续改进来讲非常重要。开发团队能够实时监控agent的活动,并基于性能数据持续优化系统。
整体来讲nvida aiq是个标准的agent工作流模版,提供了各种agent能力。算是进化到推理时代的,更傻瓜的dify类agent构筑软件。
03. 人形机器人基础模型发布,英伟达要做具身生态全闭环
1)cosmos,让具身智能理解世界
如果说专注agent还是投注现在,那英伟达在具身智能上的布局完全算得上是整合未来了。
模型、数据、算力这模型三要素英伟达都给安排齐了。
先从模型开始说,本次gtc放出了今年1月公布的具身智能基础模型cosmos的升级版。
cosmos是一个能通过现在画面,去预测未来画面的模型。它可以从文本/图像输入数据,生成详细的视频,并通过将其的当前状态(图像/视频)与动作(提示/控制信号)相结合来预测场景的演变。因为这需要对世界的物理因果规律有理解,所以英伟达称cosmos是世界基础模型(wfm)。
cosmos的基本架构
而对于具身智能而言,预测机器的行为会给外部世界带来什么影响是最核心的能力。只有这样,模型才能去根据预测规划行为,所以世界模型就成了具身智能的基础模型。有了这个基础的行为/时间-物理世界改变的世界预测模型,通过具体的如自动驾驶、机器人任务的数据集微调,这个模型就可以满足各种具有物理形态的具身智能的实际落地需要了。
整个模型包含三部分能力,第一部分cosmos transfer 将结构化的视频文字输入转换为可控的真实感视频输出,凭空用文字产生大规模合成数据。这解决了当前具身智能最大的瓶颈——数据不足问题。而且这种生成是一种“可控”生成,这意味着用户可以指定特定参数(如天气条件、物体属性等),模型会相应调整生成结果,使数据生成过程更加可控和有针对性。整个流程还可以由ominiverse和cosmos结合。
cosmos建立在ominiverse上的现实模拟
第二部分cosmos predict 能够从多模态输入生成虚拟世界状态,支持多帧生成和动作轨迹预测。这意味着,给定起始和结束状态,模型可以生成合理的中间过程。这是核心物理世界认知和构建能力。
第三部分是cosmos reason,它是个开放且可完全定制的模型,具有时空感知能力,通过思维链推理理解视频数据并预测交互结果。这是规划行为和预测行为结果的提升能力。
有了这三部分能力逐步叠加,cosmos就可以做到从现实图像token+文字命令提示token输入到机器动作token输出的完整行为链路。
这一基础模型应该确实效果不俗。推出仅两个月,1x、agility robotics、figure ai这三家头部公司都开始用起来了。大语言模型没领先,但具身智能英伟达确实在第一梯队里。
2)isaac gr00t n1,世界第一个人形机器人基础模型
有了cosmos,英伟达自然而然用这套框架微调训练了专用于人型机器人的基础模型isaac gr00t n1。
isaac gr00t n1的双系统架构
它采用双系统架构,有快速反应的“系统1“和深度推理的“系统2“。它的全面微调,使得其能处理抓取、移动、双臂操作等通用任务。而且可以根据具体机器人进行完全定制,机器人开发者可用真实或合成数据进行后训练。这使得这一模型实际上可以被部署在各种各样形状各异的机器人中。
比如说英伟达与google deepmind和迪士尼合作开发newton物理引擎,就用了isaac gr00t n1作为底座驱动了一个非常不常见的小迪士尼bdx机器人。可见其通用性之强。newton作为物理引擎非常细腻,因此足够建立物理奖励系统,以在虚拟环境中训练具身智能。
黄仁勋与bdx机器人台上“激情”互动
4)数据生成,双管齐下
英伟达结合nvidia omniverse和上面提到的nvidia cosmos transfer世界基础模型,做出了isaac gr00t blueprint。它能从少量人类演示中生成大量合成动作数据,用于机器人操作训练。nvidia使用blueprint的首批组件,在仅11小时内生成了78万个合成轨迹,相当于6,500小时(约9个月)的人类演示数据。isaac gr00t n1的相当一部分数据就来自于此,这些数据使得gr00t n1的性能比仅使用真实数据提高了40%。
孪生模拟系统
针对每个模型,靠着omniverse这套纯虚拟系统,以及cosmos transfer这套真实世界图像生成系统,英伟达都能提供大量的高质量数据。这模型的第二个方面,英伟达也覆盖了。
3)三位一体算力体系,打造从训练到端的机器人计算帝国
从去年开始,老黄就在gtc上强调一个「三台计算机」的概念:一台是dgx,就是大型gpu的服务器,它用来训练ai,包括具身智能。另一台agx,是nvidia为边缘计算和自主系统设计的嵌入式计算平台,它用来具体在端侧部署ai,比如作为自动驾驶或机器人的核心芯片。第三台就是数据生成计算机omniverse+cosmos。
具身智能的三大计算体系
这套体系在本次gtc中又被老黄重提,且特别提到靠着这套算力系统,能诞生十亿级的机器人。从训练到部署,算力都用英伟达。这一部分也闭环了。
04. 结语
如果单纯对比上一代blackwell芯片,blackwell ultra在硬件上确实匹配不上之前的“核弹”、“王炸”这些形容词,甚至有些挤牙膏的味道。
但如果从路线图规划的角度来看,这些又都在黄仁勋的布局之中,明年、后年的rubin架构,从芯片工艺,到晶体管,再到机架的集成度,gpu互联和机柜互联等规格都会有大幅度提升,用中国人习惯说的叫“好戏还在后头”。
对比硬件层面上的画饼充饥,这两年英伟达在软件层面上可以说是狂飙突进。
纵观英伟达的整个软件生态,meno、nim、blueprint三个层级的服务把模型优化、模型封装到应用构建的全栈解决方案都包括进去了。云服务公司的生态位英伟达ai全部重合。加上这次新增的agent,ai infra这块饼,英伟达是除了基础模型这一块之外,所有部分都要吃进去。
软件这部分,老黄的胃口,和英伟达的股价一样大。
而在机器人市场,英伟达的野心更大。模型,数据,算力三要素都抓在手里。没赶上基础语言模型的头把交椅,基础具身智能补齐。影影绰绰,一个具身智能版的垄断巨头已经在地平线上露头了。
这里面,每个环节,每个产品都对应着一个潜在的千亿级市场。早年孤注一掷的好运赌王黄仁勋,靠着gpu垄断得来的钱,开始做一场更大的赌局。
如果这场赌局里,软件或者机器人市场任意一方面通吃,那英伟达就是ai时代的谷歌,食物链上的顶级垄断者。
不过看看英伟达gpu的利润率,我们还是期待这样的未来别来了。
还好,这对于老黄这辈子来讲,也是他从没操盘过的大赌局。胜负难料。