距离上一次 GTC大会并不遥远,如此密集的大会让我们不禁想起了失效了的摩尔定律。准确地说,摩尔定律的内容并没有过时,而是算力在以超越摩尔定律的速度向前更新,同时带给千行百业更多创新的力量。而本次GTC大会所带给我们的,恰恰是不断加速中的算力革命的最新成果。
9月19至22日之间,2022秋季GTC大会来了。本次GTC 大会汇集了大量 AI、计算机图形、数据科学等方面的新成果,让开发者、研究人员、企业领袖、创作者、IT 决策者和学生切实感受到了AI对于各个行业和整个社会的改造作用。
从RTX4090显卡的问世让GPU进入了RTX时代,到此前用户一直期待的Hopper架构的服务器行将面世,再到大型语言模型云服务有望让更多用户享用大型语言模型,一系列的创新让本次GTC大会充满了惊喜,下面就让我们来盘点一下这些新惊喜。
GeForce RTX 40系列带来的新惊喜
什么是惊喜?新发布的GeForce RTX 40系列就是一个惊喜。此前用户对于RTX 40系列有着极高的期待,不仅因为它功耗设置更为灵活,还因为它的价格将会给用户带来惊喜。
该系列中的RTX 4090号称是全球最快的游戏GPU,具有760亿个晶体管、16384个CUDA核心和24GB高速GDDR6X显存,在4K分辨率的游戏中持续以超过100FPS运行。与前代产品相比,在光线追踪游戏中,RTX 4090的性能提升相比RTX 3090 Ti可达4倍。在光栅游戏中,RTX 4090的性能提升也高达2倍,同时保持了相同的450W功耗。
从另一个角度来看,显卡绝非游戏显示驱动器,而是会因此带来更多的创作动力,AI、视觉捕捉等应用都将因此而提速。英伟达此次凭借GeForce RTX 40系列,完全称得上是全新定义了自己发明的GPU,一个实时光线追踪和利用AI生成像素的神经网络渲染的新时代已然来临。
英伟达创始人兼首席执行官黄仁勋在GTC大会的主题演讲里对此介绍说:“RTX光线追踪和神经网络渲染的时代正在全面展开,全新 NVIDIA Ada Lovelace架构将其推向了新的高度。”
NVIDIA Hopper将正式亮相
今年4月,NVIDIA Hopper架构被正式推出,它因为将取代两年前推出的NVIDIA Ampere 架构而倍受关注。当时对应的核心编号为“GH100”,因为芯片、Transformer 引擎 、第二代安全多实例 GPU、机密计算、第4代NVIDIA NVLink、DPX 指令等六大创新,HPC高性能计算、AI人工智能领域的用户对于Hopper架构的产品可谓是充满了期待。早在官方正式公布核心参数之前,相关的规格已经被挖掘出来。
在本次GTC上,英伟达宣布NVIDIA H100 Tensor Core GPU 全面投产,英伟达全球技术合作伙伴计划于10月推出首批基于开创性 NVIDIA Hopper架构的产品和服务。对于有需求的用户来说,NVIDIA Hopper架构的产品将不再只是传说。
计算机制造商所提供的搭载 H100 的系统预计将在未来几周内发货,到今年年底将有超过 50 款服务器型号面市,2023 年上半年还将有数十款型号面市。已在构建系统的合作伙伴包括源讯(Atos)、思科、戴尔科技、富士通、技嘉科技、慧与、联想和超微。
此外,H100也开始走向云端,AWS、谷歌云、Microsoft Azure、Oracle Cloud Infrastructure 将从明年开始率先在云端部署基于 H100 的实例。包括巴塞罗那超级计算中心、洛斯阿拉莫斯国家实验室、瑞士国家超级计算中心(CSCS)、德州高级计算中心和筑波大学等高等教育和研究机构也将在新一代超级计算机采用H100。
H100 使企业能够削减 AI 的部署成本,相较于上一代,在提供相同 AI 性能的情况下,可将能效提高 3.5 倍,总体拥有成本减少至 1/3,所使用的服务器节点数也减少至 1/5。但另一方面,也存在一些新的应用问题。
H100的Transformer引擎技术虽然可助力企业快速开发精度更高的大型语言模型,但随着这些模型的规模不断扩大,其复杂性也在不断提升,有些模型的训练时间甚至长达数月。为解决这一问题,包括 NVIDIA NeMo Megatron、Microsoft DeepSpeed、Google JAX、PyTorch、TensorFlow和XLA等大型语言模型和深度学习框架正在 H100 上进行优化。这些框架与 Hopper 架构相结合,能够显著提升 AI 性能,将大型语言模型的训练时间缩短到几天乃至几小时。复杂性问题解决之后,Hopper架构产品的应用之路将而更加顺畅。
大型语言模型服务有望平民化
在过去的几年里,从人工智能专家到普通大众,每个人都被大型语言模型(LLM: Large Language Models)的惊人输出所吸引。这些模型,利用描述性输入,就能够产生从令人信服的人造图像到故事和诗歌等一切东西。但是,学术界、非营利组织和小公司的研究实验室却很难创建、研究,甚至使用LLM,因为只有少数拥有必要资源和独家权利的工业实验室可以完全访问它们。
英伟达在此次大会上发布的两项全新大型语言模型(LLM)云 AI 服务——NVIDIA NeMo 大型语言模型服务和 NVIDIA BioNeMo LLM 服务,能够使开发者轻松调整 LLM 并部署定制的 AI 应用程序,其可用于内容生成、文本摘要、聊天机器人、代码开发,以及蛋白质结构和生物分子特性预测等。
通过 NeMo LLM 服务,开发者能够在 NVIDIA 管理的基础设施上使用被称为提示学习的训练方法快速定制多个预训练基础模型。NVIDIA BioNeMo 服务是云应用程序编程接口(API),它可以将 LLM 用例扩展到语言以外的科学应用中,从而加快制药和生物技术公司的药物研发速度。
借助 NeMo LLM 服务,开发者可以使用自己的训练数据定制基础模型——从30亿个参数到世界上最大的 LLM 之一Megatron 530B。与从头开始训练模型所需的数周或数月相比,该过程只需几分钟到几小时。
BioNeMo LLM 服务包括两个用于化学和生物学应用的新 BioNeMo 语言模型。该服务提供蛋白质、DNA 和生物化学数据方面的支持,帮助研究人员发现生物序列中的模式和洞察。
BioNeMo 使研究人员能够利用包含数十亿个参数的模型来扩大研究范围。这些大型模型可以储存更多关于蛋白质结构、基因间进化关系的信息,甚至可以生成用于治疗的新型生物分子。
除了调整基础模型之外,LLM 服务还提供通过云 API 使用现成和定制模型的选项。这让开发者可以访问包括 Megatron 530B 在内的各种预训练 LLM,以及使用 NVIDIA NeMo Megatron 框架创建的 T5 和 GPT-3 模型。NVIDIA NeMo Megatron 框架现已进入公测阶段,可支持各种应用和多语言服务需求。LLM服务平民化的时代,将不再遥远。
发力智能汽车市场
如今的汽车越来越像一个大号的智能手机,当其中的智能应用越来越多时,对于边缘算力的渴求也就越发强烈。当前英伟达的当家汽车系统级芯片是DRIVE Orin。在普通汽车中,汽车的功能由分布在整辆车中的几十个电子控制单元控制。Orin通过集中控制这些核心领域,取代这些组件以简化对于汽车制造商而言已经高度复杂的供应链。
DRIVE Orin专为软件定义而设计,因此可以实现这些在汽车全生命周期内的持续升级。目前,NVIDIA DRIVE Orin在国内汽车市场上也有了进一步的拓展。
轻舟智航(QCraft)宣布推出搭载NVIDIA DRIVE Orin的最新一代车规级前装量产自动驾驶解决方案,并实现了L4级乘用车车队在国内的率先落地。轻舟智航将携手T3出行在9月联合启动Robotaxi在苏州的公开运营,为市民提供安全、高效的接驳服务。轻舟智航也成为行业内首批基于DRIVE Orin实现Robotaxi车队部署和运营的公司。
同时,小鹏汽车最新旗舰车型——超快充全智能SUV G9在中国正式上市并将于第四季度向用户交付。作为小鹏智能电动汽车产品序列中的第四款,G9配备NVIDIA DRIVE 集中式计算平台以及DRIVE Orin系统级芯片(SoC),并搭载小鹏汽车研发的最新技术。本次DRIVE Orin的硬件升级,将帮助小鹏G9更大程度地释放出车载系统的潜力,并完善小鹏的数据闭环及迭代的解决方案。
在DRIVE Orin芯片之外,在本次GTC大会上,英伟达发布了单颗算力达到2000TFLOPS的车载芯片Thor,其算力达到了Orin的8倍,特斯拉FSD芯片的14倍。DRIVE Thor为汽车的中央计算架构而生,显然,英伟达想利用新一代芯片,实现一颗芯片统治汽车上的一切。
在本次GTC大会上,英伟达还发布了更多和合作伙伴的联合创新。其中,英伟达和德勤宣布扩大合作范围,以帮助全球企业使用 NVIDIA AI 和 NVIDIA Omniverse Enterprise 平台开发、实施和部署混合云解决方案;还与Booz Allen Hamilton扩大合作,为公域及私域网络客户提供AI 赋能的、GPU 加速的网络安全平台。
回顾本次大会,会发现智能与算力是两个并行的主题。当智能化浪潮席卷整个社会时,加速计算的非凡愿景开启了AI的进步,而AI反过来又将惠及全球各个行业。在这个轮回之中,新想法、新产品和新应用不断涌现,2022秋季GTC大会的魅力之处,恰恰就在于为这些创新成果提供了展示的舞台。