英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我

2025年02月27日13:50:52 科技 3483

英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我 - 天天要闻

整理 | 褚杏娟、tina

今天,英伟达发布了亮眼的财报:季度收入创纪录为 393 亿美元,环比增长 12%,同比增长 78%;季度数据中心收入创纪录为 356 亿美元,环比增长 16%,同比增长 93%;全年收入创纪录为 1305 亿美元,同比增长 114%。

不过,这样的成绩并没有带动英伟达股价大涨,反而在财报披露后却出现了剧烈波动。英伟达分析师电话会议结束,英伟达股价转而下跌 0.12%。

英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我 - 天天要闻

  • 数据中心业务稳居收入大头,得益于英伟达 hopper gpu 计算平台和 infiniband 的出货量增加。在第四季度收入创下 356 亿美元的纪录,比上一季度增长 16%,比去年同期增长 93%。全年收入增长 142%,达到了创纪录的 1152 亿美元。据悉,目前全球 top500 的超级计算机榜单上,超过 75% 的系统由英伟达技术提供支持。云服务提供商 aws、coreweave、google cloud platform(gcp)、microsoft azure 和 oracle cloud infrastructure(oci)采购英伟达 gb200,以对日益增长的 ai 客户需求。英伟达将作为投资 5000 亿美元的“星际之门”的关键技术合作伙伴。

  • 游戏与 ai pc 业务方面,第四季度游戏收入为 25 亿美元,比上一季度下降 22%,比去年同期下降 11%。全年收入增长 9%,达到了 114 亿美元,得益于 rtx 40 系列 gpu 的热销。英伟达推出采用 blackwell 架构的 rtx™ 50 系列显卡,其中 5090 和 5080 相比上一代产品提供最高 2 倍的性能提升。nvidia dlss 4 具备多帧生成和图像质量增强功能,发布时已有 75 款游戏和应用支持,nvidia reflex 2 可以将 pc 延迟降低最多 75%。

  • 专业可视化方面,第四季度收入为 5.11 亿美元,环比增长 5%,同比增长 10%。全年收入增长 21%,达到了 19 亿美元。英伟达发布个人 ai 超级计算机 nvidia project digits,为全球的 ai 研究人员、数据科学家和学生提供访问英伟达 grace™ blackwell 平台的强大计算能力。

  • 汽车和机器人业务方面,第四季度汽车业务营收达 5.7 亿美元,环比增长 27%‌,同比增长 103%‌;全年营收增长 55% 至 17 亿美元‌。英伟达与丰田现代汽车达成合作,推出 nvidia cosmos™平台‌,已被机器人及汽车企业 1x、agile robots、waabi、uber 等采用‌,发布 nvidia jetson orin nano™ super,其生成式 ai 性能最高提升 1.7 倍‌。

英伟达创始人兼首席执行官黄仁勋表示:“blackwell 的需求非常强劲,因为推理 ai 为计算能力增加了另一个缩放定律——增加用于训练的计算能让模型更聪明,增加用于长时间思考的计算会让答案更智能。”

blackwell 是英伟达去年发布的“历史上最强大”gpu 架构,支持万亿参数规模的 ai 模型训练和推理。黄仁勋表示,blackwell 架构为推理 ai 设计,推理性能比 hopper 提升 25 倍,成本降低 20 倍。他进一步确认,blackwell 系列芯片的供应链问题已完全解决,供应问题不曾妨碍到下一次训练和后续产品的研发。

此外,黄仁勋透露,blackwell ultra 计划于 2025 年下半年发布,将带来新的网络、内存和处理器等改进。cfo 指出,一旦 blackwell 增产,利润将有所改善,并预计到 2025 年年底,利润率将在 70%-80% 区间的中部。然而,他强调目前的首要任务是向客户交付尽可能多的产品。

英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我 - 天天要闻

得益于 r1 推理模型,
全球计算需求在加速增长

今年 1 月,中国初创 ai 公司 deepseek 发布的开源模型 r1 震撼全球——在极低的训练成本下,该模型展现出不逊于 chatgpt 的顶级性能。这一消息一度引发市场震动,导致英伟达股价单日暴跌 17%。尽管过去一个月内英伟达股价已回升至高位,但市场对训练效率的提升可能影响其长期增长轨迹的担忧依然挥之不去。

这份财报所覆盖的时间(截至 1 月 26 日前的三个月)恰巧与 deepseek 震撼市场的日子(1 月 27 日)错开,从财报数据本身看不出 deepseek 给英伟达带来的业绩影响,但在财报电话会议上,deepseek 无疑是一个无法回避的议题。

对于 deepseek 对英伟达的影响,黄仁勋提到,因为 openai o3、deepseek r1 和 grok 3 这些新兴推理模型的兴起,大家的推理需求正在加速增长。

并且长时间推理(long-thinking reasoning ai)每个任务所需的计算量可能是一次性推理(one-shot inference)的 100 倍。

人工智能正在从感知和生成式 ai 进化到推理 ai。计算量越大,模型“思考”得越多,答案就越智能。像 openai o3、deepseek r1 和 grok 3 这样的推理模型正采用推理时间缩放(inference-time scaling)。推理模型的计算需求可能是传统模型的 100 倍,而未来的推理模型可能需要更大规模的计算资源。

“deepseek r1 的出现点燃了全球的热情。这是一项出色的创新,但更重要的是,它开源了一个世界级的推理 ai 模型。”

如今,几乎所有 ai 开发者都在使用 r1,或者借鉴其链式思维(chain of thought)和强化学习(reinforcement learning)等技术来提升模型性能。目前有三条缩放定律在推动 ai 计算需求的增长。ai 的传统缩放定律依然有效,基础模型(foundation models)正在不断增强,并融入多模态能力,预训练规模仍在持续扩大。但这已经不再足够。ai 计算需求正向两个新维度扩展。首先是后训练缩放(post-training scaling),包括强化学习(reinforcement learning)、微调(fine-tuning)和模型蒸馏(model distillation),其计算需求比单纯的预训练高出数个数量级。其次是推理时间缩放,在这一过程中,单次查询的计算需求可能达到传统推理的 100 倍。

“这仅仅是个开始!”黄仁勋强调,“我们预计下一代模型可能会基于模拟和搜索技术,计算量需求将是现在的数千倍,甚至有望达到数十万倍、数百万倍。”

“有些模型是自回归模型,有些是基于扩散模型,各不相同。有时我们希望看到数据中心具备强大的综合推理能力,有时又需要其具备紧凑的特性,因此很难确定数据中心的最佳配置。这也就是为什么英伟达的架构如此受市场欢迎,因为我们能运行各种模型。”

deepseek 的开源进一步
巩固英伟达的领先地位?

在财报电话会议上,黄仁勋提到,中国市场的占比与此前几个季度大致相同,基本保持稳定。

但根据昨天路透社的消息,由于对 deepseek 低成本 ai 模型的需求激增,中国企业正在加大对英伟达 h20 人工智能芯片的采购。其中,两位知情人士指出,自上个月 deepseek 进入全球公众视野以来,腾讯、阿里巴巴和字节跳动的 h20 订单“显著增长”。

最近几天,deepseek 开源了针对英伟达进行优化的一系列代码库,包括 flashmla、deepep、deepgemm、dualpipe 和 eplb,涉及 hopper gpu、fp8 精度计算、moe(mixture of experts)、并行策略等关键技术。

曾参与构建 openai 首个 gpu 集群的 vinayak 昨天发表的评论则揭示了一个深层逻辑——deepseek 开源的优化方案实质上巩固了英伟达的技术壁垒:“毫无疑问,这将进一步巩固英伟达的领先地位。 换句话说,如果你想要像 deepseek 这样的专家团队为你优化功能,那就选择英伟达。英伟达很可能会在接下来的 blackwell 和 rubin 迭代中引入这些改进(如果他们在未来几个月内这么做了,我一点也不会感到意外)。”

英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我 - 天天要闻

有趣的是,不仅仅是目前开源的这些优化,在 v3 模型论文中,deepseek 甚至在技术层面向英伟达提出的具体改进建议:

其一是累加精度升级。通过实验发现,英伟达 tensor core 当前累加精度(34 位以下)难以满足 fp8 训练的误差控制需求。deepseek 建议增加累加精度或动态调整位宽,以平衡效率与精度。这一改进若能实现,将显著提升低精度训练可靠性。

“我们的实验发现,tensor core 在进行符号扩展右移后,仅保留每个尾数乘积的最高 14 位,并截断超出范围的位数。然而,例如,为了在 32 次 fp8×fp8 乘法累加中获得精确的 fp32 结果,至少需要 34 位精度。因此,我们建议未来的芯片设计在 tensor core 中增加累加精度,以支持全精度累加,或者根据训练和推理算法的精度要求选择合适的累加位宽。此方法能够在保持计算效率的同时,将误差控制在可接受范围内。”

其二是在线量化流程优化。deepseek 开发了一种基于 tile(子块)和 block(块级)的量化方法,可以在数据集中动态调整特定位宽下的数值范围。而目前英伟达仅支持张量级别的量化。deepseek 希望英伟达的架构师阅读其论文,并看到该方法的优势。

其三是矩阵运算融合创新。deepseek 还希望 gpu 厂商将矩阵转置操作与 gemm(通用矩阵乘法)运算融合,从而进一步减少内存操作,优化量化工作流。

未来,deepseek 和英伟达是否能更深层次的合作,比如共同研发新技术,现在还不好说。但至少目前,deepseek 通过模型优化释放了中端芯片的潜力,而英伟达则借助生态反馈增强了硬件的竞争力。

参考链接:

https://www.investing.com/news/transcripts/earnings-call-transcript-nvidia-beats-q4-2025-estimates-stock-gains-93ch-3894615

https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/

声明:本文为 infoq 整理,不代表平台观点,未经许可禁止转载。

 🪧读者福利

英伟达“赚钱机器”更强了!盈利创纪录,黄仁勋:DeepSeek 为 GPU 降本,但下一代模型还离不开我 - 天天要闻免费啦!

13 小时带你深度揭秘 deepseek!10+ 位 ai 领域专家倾囊相授,多角度拆解 deepseek 案例,揭示其成功背后的技术逻辑与商业策略!

不少网友直呼 “ 学到了!”

科技分类资讯推荐

苹果visionOS 26发布:全新3D小组件可固定于环境中 - 天天要闻

苹果visionOS 26发布:全新3D小组件可固定于环境中

IT之家 6 月 10 日消息,在目前正在进行的 WWDC25 中,苹果公布了 visionOS 26。据苹果介绍,visionOS 26 带来全新 3D 小组件功能,用户可以将小组件固定在环境中。此外,visionOS 26 还新增空间场景 / 空间画廊功能,也就是利用 LiDAR 传感器打造 3D 场景,让用户置身其中,并改进了用户的“自影像”3D 头像
苹果 iOS 26 系统更新正式发布:全新液态玻璃设计、AI 功能改进 - 天天要闻

苹果 iOS 26 系统更新正式发布:全新液态玻璃设计、AI 功能改进

IT之家 6 月 10 日消息,苹果今日正式发布了 iOS 26 更新,系统命名跟上年份,带来设计、功能、AI 等多个方面的改进,IT之家汇总如下:全新外观新设计使应用和系统体验更加富有表现力和令人愉悦,同时保持了 iOS 的即时熟悉感。它采用 Liquid Glass(液态玻璃)—— 一种新的半透明材质,能够反射和折射周围环境,使内容更...
iOS 26升级视觉智能:AI识别屏幕内容,可搜索同款商品等 - 天天要闻

iOS 26升级视觉智能:AI识别屏幕内容,可搜索同款商品等

IT之家 6 月 10 日消息,在今天举办的 WWDC 2025 主题演讲中,苹果宣布升级视觉智能(Visual Intelligence),让用户能够搜索并操作 iPhone 应用中显示的任何内容。IT之家此前曾分享视觉智能的初步上手体验,主要通过相机识别现实世界中的物体,而在本次更新中,该功能可以直接分析屏幕上的内容。用户可以针对屏幕显示的图...
iPadOS 26登场:全新多任务处理/文件App比拟macOS - 天天要闻

iPadOS 26登场:全新多任务处理/文件App比拟macOS

IT之家 6 月 10 日消息,在目前正在进行的 WWDC25 中,苹果公布了 iPadOS 26。iPadOS 26 集中于多任务处理(相应功能支持 iPad 全系家族),带来了类似 macOS 的左上角“红绿灯”,用户打开 App 时应用首先会全屏显示,但用户也可以通过应用右下角来调整应用窗口大小,在连接键盘后,还支持通过鼠标来直观拖拽界面,点击“...
苹果预告 AirPods 新功能:录音室级录音 + 相机遥控 - 天天要闻

苹果预告 AirPods 新功能:录音室级录音 + 相机遥控

IT之家 6 月 10 日消息,在今天召开的 WWDC 2025 全球开发者大会上,苹果为 AirPods 4、AirPods 4(支持主动降噪 ANC)以及 AirPods Pro 2 耳机,预告了音频录制和相机遥控功能。录音室级别音频录制苹果公司表示无论是采访者、播客主播还是歌手,AirPods 用户都能随时随地录制录音室级别的高品质音频。IT之家援引博
这下惨了,特朗普的大棋下不下去了 - 天天要闻

这下惨了,特朗普的大棋下不下去了

特朗普的真正秘密是什么?今天通过3个故事来全面解构! 坏土豆 作品首发于头条号 一个坏土豆陪我的国一起逆袭每次我写时评的时候,总有人说人家马斯克是世界首富,不比你聪明,不比你眼光长远。人家特朗普,堂堂美国总统,不比你深谋远虑,你看不懂是因为
苹果发布Foundation模型框架 - 天天要闻

苹果发布Foundation模型框架

IT之家 6 月 10 日消息,正在举行的 WWDC 2025 开发者大会上,苹果公司以 Apple Intelligence 为开场,宣布推出 Foundation Models 框架。
阿尔特汽车进军智能机器人领域,多款产品研发中 - 天天要闻

阿尔特汽车进军智能机器人领域,多款产品研发中

IT之家 6 月 10 日消息,阿尔特汽车 6 月 8 日宣布正式进军机器人产业,该公司最新战略布局取得突破性进展 —— 由阿尔特联合云视科技、上海乙蜂共同投资的北京阿尔瑞特智能机器人科技有限公司(以下简称阿尔瑞特)已完成注册并举行成立庆典。阿尔特机器人业务由阿尔特董事长宣奇武亲自挂帅,并由思科系统前高管张毅军等具...