CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了!

2025年06月24日09:40:21 财经 1350
CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

【电脑报记者王诚 报道】太平洋时间6月11日,AMD在美国加州圣何塞举办了ADVANCING AI 2025大会,会上正式发布了基于CDNA 4架构的INSTINCT MI350X系列GPU并全面介绍了技术细节与具体产品,INSTINCT MI350X系列的登场无疑为AMD的AI解决方案又增添了全新的强大力量。

产品迭代时间表已定,AMD产品研发升级进度稳步向前

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

从AMD INSTINCT GPU的发展路线图来看,自2023年的MI300系列、2024年的MI325X之后,今年的MI350系列当然是按计划如期登场了,而在这之后,MI400系列也会在明年露面。按照目前AI应用需求爆发式增长的态势,AMD在AI计算卡这方面的战略可谓是与时俱进,并且持续保持了业界领先的地位。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

新的MI350系列GPU采用了CDNA 4架构,目前登场的有MI350X和MI355X两款。MI350系列GPU采用了3nm制程节点,拥有1850亿晶体管,新增对FP4和FP4精度数据的支持,同时搭载的是HBM3E显存,保持了规格领先的地位。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

具体规格方面,MI350X FP64/FP16/FP8/FP6/FP4的峰值算力分别为72TFLOPS、4.6PFLOPS、9.2PFLOPS、18.4PFLOPS和18.4PFLOPS;MI355X更强一些,分别为79TFLOPS、5PFLOPS、10PFLOPS、20PFLOPS和20PFLOPS。两者的最高显存容量皆为288 GB HBM3E,显存带宽都是8TB/s。TBP方面,MI350X为1000W,而MI355X则为1400W。相对于上代CDNA 3架构、TBP为750W的MI300X来讲,MI350系列的TBP有明显的增加。接下来让我们先详细了解一下MI350系列使用的CDNA 4架构有何改进。

AI加速更高效,CDNA 4架构设计紧跟实际应用需求

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

专为AI加速而生的CDNA架构目前进化到了第四代,那么这一代在哪些地方进行了改进呢?从官方的概述可以看到,CDNA 4增强了生成式AI和大预言模型的矩阵单元;为混合精度计算提供了新数据格式的支持;增强了IF总线与高级封装的连接性;提升了能效表现。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

从图中可以看到,MI350系列采用了XCD芯片与IOD堆叠的方式,其中XCD采用了N3P制造工艺,而IOD使用N6制造工艺,成熟的COWOS-S封装技术在这里发挥了优势。在IOD之下,是AMD Infinity Fabric AP Interconnect单元,不同GPU和不同XCD通过IF总线进行互联,3D混合键合架构提供了更佳的能效表现。IOD-IOD、HBM3E显存则采用2.5D架构封装。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

再来看看CDNA 4架构MI350系列的具体设计。可以看到,它由8个XCD、2个IOD组成,其中1个XCD包含4组着色器引擎,拥有32个CDNA 4架构的CU单元;两个IOD总共提供了128个内存通道,支持最多288GB HBM3E显存,带宽高达8TB/s,远高于搭载HBM3显存的MI300X的192GB和5.2TB/s。此外,我们可以看到XCD之间用来数据通信的IF总线带宽为5.5TB/s,而与其他GPU通信的第四代IF总线带宽高达1075GB/s,高于MI300X的896GB/s。两个IOD对外还支持PCIe 5.0×16连接,带宽达到128GB/s。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

另外,从MI350系列GPU的Block Diagram图片可以看到,1个XCD原生拥有36个CU单元,而MI350系列用了其中32个,因此总共具备8×32=256个CU,每个XCD具备4MB二级缓存。IOD里具备128MB无限缓存,8个HBM3E控制器每一个对应32MB无限缓存。XCD和IOD对外通过IF总线与PCIe 5.0总线进行数据传输,其中对外的IF总线有7路。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

值得一提的是,MI350系列也支持GPU分区模式,同时HBM显存也支持NUMA划分。不过和MI300X支持NPS1和NPS4模式不同的是,MI350的HBM显存支持的是NPS1和NPS2模式。也就是说MI350系列支持GPU单分区+NPS1模式、GPU双分区/四分区/八分区+NPS2模式。从AMD官方数据来看,MI350系列在GPU单分区+NPS1模式下可获得最大显存容量,因此可支持520B参数的AI模型,而在GPU八分区+NPS2模式下可最多支持8个Llama 3.1 70B模型实例。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

最后简单总结一下MI350系列GPU的升级重点。一,在功耗没有翻倍的情况下提供了双倍的计算吞吐量;二,为增加的数据吞吐量提供了更高的内存带宽与本地数据共享效率;三,量化创新;四,通过标准化,带来了对微缩数据类型的支持;五,提供对FP8(缩放/非缩放)、FP6&FP4工业级微缩数据类型的支持;六,减少非核心功耗从而提升了计算性能。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

AMD还提供了MI350X与MI300X的对比。从图中可以看到,在每瓦读性能方面,MI350X相对MI300X提升了大约30%。更高的显存数据传输效率无疑对AI性能的提升非常有用。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

从各种精度数据的计算性能来看,MI355X相对MI300X的提升主要集中在FP16及更微缩的数据类型上,其中Matrix FP16/BF16和FP16/BF16稀疏单CU每时钟FLOPS理论值提升一倍,峰值性能提升了90%,Matrix FP8和FP8稀疏、Matrix INT8/INT4和INT8/INT4稀疏也是如此。至于FP6和FP4,则是MI355X独占,MI300X是不支持的。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

实际上,MI350系列通过一系列的手段增强了Matrix核心效率,因此要比较每CU的HBM显存峰值读带宽的话,MI350X则是MI300X的1.5倍。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

MI350系列当然也支持8卡并联,从图中可以看到,红色IF总线单条带宽153.6GB/s,每一个GPU与其他七个GPU通过IF总线连接,因此总带宽正好是153.6×7=1075.2 GB/s。而GPU本身通过PCIe 5.0×16与两个EPYC处理器、八组NIC设备或存储设备连接。那么基于这个架构的方案目前有8×MI350X风冷版和8×MI355X DLC版UBB可选。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

MI355X DLC解决方案最多可内置16个MI355X UBB8平台,因此最多拥有128个MI355X GPU,总共36TB HBM3E显存,FP16/BF16算力高达644 PFLOPS,FP8算力高达1.28 EFLOPS,FP6/FP4算力更是达到2.57 EFLOPS。MI350X风冷解决方案则最多内置8个MI350X UBB8平台,最多拥有64个MI350X GPU,总共18TB HBM3E显存,FP16/BF16算力达295 PFLOPS,FP8算力达590 PFLOPS,FP6/FP4算力达1.18 EFLOPS。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

和竞品的GB200/B200相比,MI355X也有明显优势,特别是显存容量高出大约60%,FP64/FP32峰值性能几乎翻倍,FP6峰值性能达到和超过两倍,其他数据精度的性能也基本上打平或高出10%。因此,MI355X可以称得上是针对工业级AI和高性能计算的GPU王者。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

来看看AMD官方提供的具体数据。MI355X在加载运行Llama 3.1 405B大模型时,AI助手和聊天机器人、内容生成、摘要与对话式AI的推理性能分别相对MI300X提升了320%、190%、280%和160%之多。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

在运行DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick等流行模型时的性能MI355X相对MI300X分别提升了大约200%、220%和230%。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

在面对FP4数据精度时,MI355X相对B200的优势最高可达30%,和GB200也可打平。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

如果计算每美元Tokens,那么MI355X相对B200大约领先了40%,可以说在性价比方面实现了远超,这对于企业用户来说就意味着选择MI355X可以在提供相同性能的前提下节约大量预算。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

那么在模型训练方面,MI355X的表现又如何呢?从AMD官方数据可以看到,MI355X在以FP8精度预训练Llama 3 8B/70B模型时相对MI300X分别提升了160%和250%,而在BF16精度下预训练Llama 3 70B和FP8精度下预训练Llama 2 70B也分别提升了170%和190%。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

和竞品对比,MI355X在FP8/BF16下预训练Llama 3 70B/8B模型与B200的性能相当,而在FP8精度下微调Llama 2 70B时的性能大约是B200的1.1倍、GB200的1.13倍。由此可见,MI350系列确实在综合性能和性价比方面相对竞品有着明显的优势,考虑到AMD还能提供从CPU、GPU到平台系统最为全面的解决方案,说它在业界中具备领军级的实力毫不为过。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

除了MI350系列之外,AMD在发布会上还令人惊喜地公布了2026年即将上市的MI400系列。MI400系列FP4/FP8性能可达恐怖的40PFLOPS和20PFLOPS,搭载HBM4显存,容量高达432GB,显存带宽高达19.6TB/s,每个GPU的扩展带宽更是达到300GB/s,相对MI350系列的153.6GB/s来讲几乎翻倍。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

MI400系列组建的机架(代号Helios)最高支持72个GPU,FP4/FP8性能分别可达2.9EFLOPS和1.4EFLOPS,下HBM4显存容量高达31TB,显存带宽和扩展带宽分别达到1.4PB/s和43TB/s。AMD也放出了它和Vera Rubin的理论性能对比,看起来也是优势非常明显的,特别是显存容量和带宽部分,都领先了50%。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

可以看到,2026年AMD将推出MI400+EPYC(代号VENICE)处理器+PENSANDO(代号VULCANO)400G超级网卡的解决方案,而在2027年,更是会升级到MI500+EPYC(代号VERANO)处理器+PENSANDO(代号VULCANO)400G超级网卡,确保在AI领域方面一直处于领先地位。

值得开发者们期待的ROCm 7来了!

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

今年4月,AMD正式发布了开源GPU计算平台ROCm 6.4版,而在ADVANCING AI 2025大会上,竟然直接宣布了ROCm 7。ROCm 7再度进化,支持最新算法和模型,支持用于扩展AI的高级功能,支持MI350系列GPU,提供集群管理和企业管理功能。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

ROCm 7增强了推理能力,增强了框架、优化服务、支持新内核和算法、支持更多的数据类型。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

从官方数据来看,ROCm 7相对ROCm 6在推理性能方面有巨大提升,在Llama 3.1 70B、Qwen2-72B和DeepSeek R1中分别提升220%、240%和280%。平均提升250%左右。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

使用DeepSeek R1模型,和B200在FP8精度下对比的话,有ROCm 7加持的MI355X吞吐量可以领先30%之多。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

ROCm 7的训练能力也得到大幅增强,支持更多的AMD开源模型、增强框架、更强大的并行能力、更优化的内核和算法、支持BF16和FP8等高级数据模式。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

和ROCm 6相比,ROCm 7在训练Llama 2 70B、Llama 3.1 8B和Qwen 1.5 7B时的性能分别提升了200%、200%和210%,升级幅度非常可观。

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

Linux平台支持度方面, ROCm 7在2025年第二季度将内置对Red Hat EPEL和Ubuntu的支持,而现在已经可以支持OpenSUSE。Windows平台支持度方面,ROCm 7将在2025年第三季度提供对PyTorch的预览,在2025年7月提供对ONNX-EP的预览。

总结:全面发展&技术领军,AMD AI优势显露无疑

CDNA 4加持,ROCm 7助阵! AMD INSTINCT MI350系列来了! - 天天要闻

最后来简单总结一下。

AMD本次在ADVANCING AI 2025上发布的MI350系列GPU和对应的解决方案无疑为用户提供了全面的AI系统,从而全方位巩固了自己在AI领域的领军地位。同时,MI350系列解决方案在AI性能、以及未来AI应用的适应能力方面都具备极强的竞争力,确保了AMD的AI解决方案能够在面对同级竞品时处于优势地位。

此外,AMD在AI解决方案的生态建设方面也不遗余力,即将上线的ROCm 7无疑又会让AMD的AI硬件解决方案增加更丰富的功能、迸发出更强大的性能。可以说每一届ADVANCING AI大会都见证了AMD在AI领域的进化与成长,即便已经是领军地位也要不断战未来,让我们拭目以待吧。

财经分类资讯推荐

想赚大钱,就要尽早接触资本市场 - 天天要闻

想赚大钱,就要尽早接触资本市场

赚钱的两条路径,一条是在产品市场,一条是在资本市场,我们平台有数十部关于产品市场赚钱的各类专栏及数千篇关键的赚钱文章,最近分享的是在资本市场赚钱的一些文章,希望大家喜欢。
港股午评|恒生指数早盘涨1.95%    汽车股集体回暖 - 天天要闻

港股午评|恒生指数早盘涨1.95% 汽车股集体回暖

智通财经APP获悉,港股恒生指数涨1.95%,涨461点,报24150点;恒生科技指数涨2.28%。港股早盘成交1319亿港元。汽车股集体回暖,前5月汽车产销量同比均呈两位数增长,大和称市场气氛或于三季度末复苏。理想汽车-W(02015)涨4.74%;零跑汽车(09863)涨5.72%;小鹏汽车-W(09868)涨3.8%;比亚迪股份(01211)涨3.4%
金融助“荔”,果香四溢│农行东莞分行开展“金融知识万里行”活动 - 天天要闻

金融助“荔”,果香四溢│农行东莞分行开展“金融知识万里行”活动

6月18日,“美荔东莞 给荔中国”2025年中国(东莞)高端荔枝展示交流会暨东莞荔枝文化周启动仪式在东莞市农业科学研究中心拉开帷幕。活动通过品种评鉴、专著首发、文化授牌、跨界融合等方式,以荔为媒畅通交流渠道,以果为介深化产销对接,全方位展现东莞荔枝的产业实力与文化底蕴。借此契机,农行东莞分行消保小分队走进活...
油价大涨!或现年内最大涨幅! - 天天要闻

油价大涨!或现年内最大涨幅!

距离7月1日24时的油价调整窗口仅剩8天,目前本轮油价周期统计工作已完成30%,油价调整呈现出大幅上调的态势。全国油价连续暴涨预警。油价涨幅缩减10元/吨,仍然突破600元/吨。本轮油价或突破5毛涨幅。2025年油价最大上调将要来临。
呼和浩特:助企行动正发力 - 天天要闻

呼和浩特:助企行动正发力

今年以来,呼和浩特市以企业需求为导向,持续深入开展助企行动,全力为企业发展排忧解难。日前,在呼和浩特市市场监管局组织召开的惠企质量贷银企对接暨融资赋能培训会上,20多家有贷款意愿的企业代表与七大银行共话合作、共谋发展。
以热爱·赴未来 | 好惠花·菏泽会议启幕合规经营新征程! - 天天要闻

以热爱·赴未来 | 好惠花·菏泽会议启幕合规经营新征程!

六月的菏泽,暖风拂动,生机盎然。好惠花“以热爱·赴未来”主题会议在这片沃土隆重召开。本次会议以“规范市场秩序,推动合规运营”为核心,特邀国家市场监督管理总局执法稽查局原局长杨红灿莅临现场,为与会的行业同仁、平台企业代表带来了一场兼具政策高度
资金连续10日净买入合计超23亿元!这只ETF为何受捧? - 天天要闻

资金连续10日净买入合计超23亿元!这只ETF为何受捧?

6月以来,港股创新药板块持续成为市场焦点,交投持续活跃。以全市场规模最大的港股创新药ETF(513120)为例,截至6月23日,该产品连续10个交易日持续获资金净买入,最新规模超125亿元,月内日均成交额超75亿元,且多次单日成交额突破百亿,频频登上各大平台热门ETF交易榜单。wind数据显示,截至6月23日,该ETF近一年涨超85...