新闻①:英伟达:计划于 7 月开源全球最先进的物理引擎 newton
5 月 19 日消息,在今日的台北电脑展 2025 主题演讲中,英伟达 ceo 黄仁勋表示,在物理世界中制造机器人“不切实际”,必须在遵循物理定律的虚拟世界中训练它们。
英伟达与 deepmind 和 disney research 研究合作开发了“全球最先进的物理引擎 newton”,计划于七月开源。
newton 完全支持 gpu 加速,具有高度可微性和超实时操作能力,能够通过经验实现有效学习。其正在将该物理引擎整合进 nvidia 的 isaac 模拟器,这一整合能够以真实的方式让这些机器人“活”起来。
it之家从演讲获悉,黄仁勋还公布了 nvdia isaac groot 开放式人形机器人开发平台,包括开源基础模型等。
黄仁勋还透露,英伟达正在将其 ai 模型应用于自动驾驶汽车,与梅赛德斯在全球范围内推出一支车队,使用端到端自动驾驶技术,今年即可实现。
很难想象nvidia会走向开源大军,但其实这也正常,nvidia若要巩固其领先地位,自身生态的领先和稳固是最重要的。在美出口限制与nvidia利益相冲突的情况下,软件上的开源推广会比硬件的销售更重要也更易于执行。而现在,nvidia的物理引擎 newton将在7月份正式开源,还公布了 nvdia isaac groot 开放式人形机器人开发平台。在这样的开源动作下,nvidia的ai影响力可能还会进一步提高。
新闻②:英伟达推出 nvlink fusion:对外授权互联 ip,支持半定制 ai 基础设施
5 月 19 日消息,英伟达 ceo 黄仁勋在今日发表的 computex 2025 台北国际电脑展主题演讲中宣布推出 nvlink fusion,将已在全英伟达方案 ai 生态内得到广泛验证的 nvlink 高速互联扩展到更广领域。
nvlink fusion 的出现意味着客户可构建英伟达 + 第三方的半定制混合 ai 基础设施,搭载 nvlink fusion ip 的 asic、cpu、加速器能与英伟达第一方硬件无缝通信。
it之家获悉,英伟达此次列出的 nvlink fusion 合作方包括 aichip(世芯电子,asic 设计企业)、asteralabs、marvell、富士通、联发科、高通、cadence、synopsys。
黄仁勋特别提到,富士通和高通将设计搭载 nvlink fusion ip、适用于英伟达生态系统的 cpu。
另外,nvidia硬件独有的高速互联技术nvlink,也被nvidia放了出来,推出了开放授权的nvlink fusion技术。这意味着nvidia芯片与其他ai芯片的高速互联成为了可能,而nvidia也宣布富士通和高通将设计搭载 nvlink fusion ip、适用于英伟达生态系统的 cpu,会成为最早的一批合作者,这种技术倒确实是有不小的应用前景啊。
新闻③:英伟达合作推出 fast-dllm 框架,ai 扩散模型推理速度最高飙升 27.6 倍
6 月 3 日消息,科技媒体 marktechpost 昨日(6 月 2 日)发布博文,报道称英伟达联合麻省理工学院(mit)、香港大学,合作推出 fast-dllm 框架,大幅提升扩散模型(diffusion-based llms)的推理速度。
扩散模型被认为是传统自回归模型(autoregressive models)的有力竞争者,采用双向注意力机制(bidirectional attention mechanisms),理论上能通过同步生成多个词元(multi-token generation)加速解码过程。
不过在实际应用中,扩散模型的推理速度往往无法媲美自回归模型,每次生成步骤都需要重复计算全部注意力状态,导致计算成本高昂。此外,多词元同步解码时,词元间的依赖关系易被破坏,生成质量下降,让其难以满足实际需求。
it之家援引博文介绍,英伟达组建的联合团队为解决上述瓶颈,研发了 fast-dllm 框架。该框架引入两大创新:块状近似 kv 缓存机制和置信度感知并行解码策略。
kv 缓存通过将序列划分为块(blocks),预计算并存储其他块的激活值(kv activations),在后续解码中重复利用,显著减少计算冗余。其 dualcache 版本进一步缓存前后缀词元(prefix and suffix tokens),利用相邻推理步骤的高相似性提升效率。
而置信度解码则根据设定的阈值(confidence threshold),选择性解码高置信度的词元,避免同步采样带来的依赖冲突,确保生成质量。
fast-dllm 在多项基准测试中展现了惊人表现。在 gsm8k 数据集上,生成长度为 1024 词元时,其 8-shot 配置下实现了 27.6 倍加速,准确率达 76.0%;在 math 基准测试中,加速倍数为 6.5 倍,准确率约为 39.3%;在 humaneval 和 mbpp 测试中,分别实现了 3.2 倍和 7.8 倍加速,准确率维持在 54.3% 和基线水平附近。
整体来看,fast-dllm 在加速的同时,准确率仅下降 1-2 个百分点,证明其有效平衡速度与质量。这项研究通过解决推理效率和解码质量问题,让扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力,为未来广泛应用奠定了基础。
最后,nvidia再度与多家高校合作,推出了fast-dllm 框架,其ai 扩散模型推理速度最高提升27.6 倍。而在此之前,nvidia就已经与其他合作伙伴一起推出了开源模型 llama-nemotron,也是当前最强的ai模型之一,但也并未用上fast-dllm 框架,而是puzzle 框架,或许新架构的潜力会更大!