CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了!

2025年06月24日09:40:21 財經 1350
CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

【電腦報記者王誠 報道】太平洋時間6月11日,AMD在美國加州聖何塞舉辦了ADVANCING AI 2025大會,會上正式發布了基於CDNA 4架構的INSTINCT MI350X系列GPU並全面介紹了技術細節與具體產品,INSTINCT MI350X系列的登場無疑為AMD的AI解決方案又增添了全新的強大力量。

產品迭代時間表已定,AMD產品研發升級進度穩步向前

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

從AMD INSTINCT GPU的發展路線圖來看,自2023年的MI300系列、2024年的MI325X之後,今年的MI350系列當然是按計劃如期登場了,而在這之後,MI400系列也會在明年露面。按照目前AI應用需求爆髮式增長的態勢,AMD在AI計算卡這方面的戰略可謂是與時俱進,並且持續保持了業界領先的地位。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

新的MI350系列GPU採用了CDNA 4架構,目前登場的有MI350X和MI355X兩款。MI350系列GPU採用了3nm製程節點,擁有1850億晶體管,新增對FP4和FP4精度數據的支持,同時搭載的是HBM3E顯存,保持了規格領先的地位。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

具體規格方面,MI350X FP64/FP16/FP8/FP6/FP4的峰值算力分別為72TFLOPS、4.6PFLOPS、9.2PFLOPS、18.4PFLOPS和18.4PFLOPS;MI355X更強一些,分別為79TFLOPS、5PFLOPS、10PFLOPS、20PFLOPS和20PFLOPS。兩者的最高顯存容量皆為288 GB HBM3E,顯存帶寬都是8TB/s。TBP方面,MI350X為1000W,而MI355X則為1400W。相對於上代CDNA 3架構、TBP為750W的MI300X來講,MI350系列的TBP有明顯的增加。接下來讓我們先詳細了解一下MI350系列使用的CDNA 4架構有何改進。

AI加速更高效,CDNA 4架構設計緊跟實際應用需求

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

專為AI加速而生的CDNA架構目前進化到了第四代,那麼這一代在哪些地方進行了改進呢?從官方的概述可以看到,CDNA 4增強了生成式AI和大預言模型的矩陣單元;為混合精度計算提供了新數據格式的支持;增強了IF匯流排與高級封裝的連接性;提升了能效表現。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

從圖中可以看到,MI350系列採用了XCD晶元與IOD堆疊的方式,其中XCD採用了N3P製造工藝,而IOD使用N6製造工藝,成熟的COWOS-S封裝技術在這裡發揮了優勢。在IOD之下,是AMD Infinity Fabric AP Interconnect單元,不同GPU和不同XCD通過IF匯流排進行互聯,3D混合鍵合架構提供了更佳的能效表現。IOD-IOD、HBM3E顯存則採用2.5D架構封裝。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

再來看看CDNA 4架構MI350系列的具體設計。可以看到,它由8個XCD、2個IOD組成,其中1個XCD包含4組著色器引擎,擁有32個CDNA 4架構的CU單元;兩個IOD總共提供了128個內存通道,支持最多288GB HBM3E顯存,帶寬高達8TB/s,遠高於搭載HBM3顯存的MI300X的192GB和5.2TB/s。此外,我們可以看到XCD之間用來數據通信的IF匯流排帶寬為5.5TB/s,而與其他GPU通信的第四代IF匯流排帶寬高達1075GB/s,高於MI300X的896GB/s。兩個IOD對外還支持PCIe 5.0×16連接,帶寬達到128GB/s。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

另外,從MI350系列GPU的Block Diagram圖片可以看到,1個XCD原生擁有36個CU單元,而MI350系列用了其中32個,因此總共具備8×32=256個CU,每個XCD具備4MB二級緩存。IOD里具備128MB無限緩存,8個HBM3E控制器每一個對應32MB無限緩存。XCD和IOD對外通過IF匯流排與PCIe 5.0匯流排進行數據傳輸,其中對外的IF匯流排有7路。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

值得一提的是,MI350系列也支持GPU分區模式,同時HBM顯存也支持NUMA劃分。不過和MI300X支持NPS1和NPS4模式不同的是,MI350的HBM顯存支持的是NPS1和NPS2模式。也就是說MI350系列支持GPU單分區+NPS1模式、GPU雙分區/四分區/八分區+NPS2模式。從AMD官方數據來看,MI350系列在GPU單分區+NPS1模式下可獲得最大顯存容量,因此可支持520B參數的AI模型,而在GPU八分區+NPS2模式下可最多支持8個Llama 3.1 70B模型實例。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

最後簡單總結一下MI350系列GPU的升級重點。一,在功耗沒有翻倍的情況下提供了雙倍的計算吞吐量;二,為增加的數據吞吐量提供了更高的內存帶寬與本地數據共享效率;三,量化創新;四,通過標準化,帶來了對微縮數據類型的支持;五,提供對FP8(縮放/非縮放)、FP6&FP4工業級微縮數據類型的支持;六,減少非核心功耗從而提升了計算性能。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

AMD還提供了MI350X與MI300X的對比。從圖中可以看到,在每瓦讀性能方面,MI350X相對MI300X提升了大約30%。更高的顯存數據傳輸效率無疑對AI性能的提升非常有用。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

從各種精度數據的計算性能來看,MI355X相對MI300X的提升主要集中在FP16及更微縮的數據類型上,其中Matrix FP16/BF16和FP16/BF16稀疏單CU每時鐘FLOPS理論值提升一倍,峰值性能提升了90%,Matrix FP8和FP8稀疏、Matrix INT8/INT4和INT8/INT4稀疏也是如此。至於FP6和FP4,則是MI355X獨佔,MI300X是不支持的。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

實際上,MI350系列通過一系列的手段增強了Matrix核心效率,因此要比較每CU的HBM顯存峰值讀帶寬的話,MI350X則是MI300X的1.5倍。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

MI350系列當然也支持8卡並聯,從圖中可以看到,紅色IF匯流排單條帶寬153.6GB/s,每一個GPU與其他七個GPU通過IF匯流排連接,因此總帶寬正好是153.6×7=1075.2 GB/s。而GPU本身通過PCIe 5.0×16與兩個EPYC處理器、八組NIC設備或存儲設備連接。那麼基於這個架構的方案目前有8×MI350X風冷版和8×MI355X DLC版UBB可選。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

MI355X DLC解決方案最多可內置16個MI355X UBB8平台,因此最多擁有128個MI355X GPU,總共36TB HBM3E顯存,FP16/BF16算力高達644 PFLOPS,FP8算力高達1.28 EFLOPS,FP6/FP4算力更是達到2.57 EFLOPS。MI350X風冷解決方案則最多內置8個MI350X UBB8平台,最多擁有64個MI350X GPU,總共18TB HBM3E顯存,FP16/BF16算力達295 PFLOPS,FP8算力達590 PFLOPS,FP6/FP4算力達1.18 EFLOPS。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

和競品的GB200/B200相比,MI355X也有明顯優勢,特別是顯存容量高出大約60%,FP64/FP32峰值性能幾乎翻倍,FP6峰值性能達到和超過兩倍,其他數據精度的性能也基本上打平或高出10%。因此,MI355X可以稱得上是針對工業級AI和高性能計算的GPU王者。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

來看看AMD官方提供的具體數據。MI355X在載入運行Llama 3.1 405B大模型時,AI助手和聊天機器人、內容生成、摘要與對話式AI的推理性能分別相對MI300X提升了320%、190%、280%和160%之多。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

在運行DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick等流行模型時的性能MI355X相對MI300X分別提升了大約200%、220%和230%。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

在面對FP4數據精度時,MI355X相對B200的優勢最高可達30%,和GB200也可打平。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

如果計算每美元Tokens,那麼MI355X相對B200大約領先了40%,可以說在性價比方面實現了遠超,這對於企業用戶來說就意味著選擇MI355X可以在提供相同性能的前提下節約大量預算。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

那麼在模型訓練方面,MI355X的表現又如何呢?從AMD官方數據可以看到,MI355X在以FP8精度預訓練Llama 3 8B/70B模型時相對MI300X分別提升了160%和250%,而在BF16精度下預訓練Llama 3 70B和FP8精度下預訓練Llama 2 70B也分別提升了170%和190%。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

和競品對比,MI355X在FP8/BF16下預訓練Llama 3 70B/8B模型與B200的性能相當,而在FP8精度下微調Llama 2 70B時的性能大約是B200的1.1倍、GB200的1.13倍。由此可見,MI350系列確實在綜合性能和性價比方面相對競品有著明顯的優勢,考慮到AMD還能提供從CPU、GPU到平台系統最為全面的解決方案,說它在業界中具備領軍級的實力毫不為過。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

除了MI350系列之外,AMD在發布會上還令人驚喜地公布了2026年即將上市的MI400系列。MI400系列FP4/FP8性能可達恐怖的40PFLOPS和20PFLOPS,搭載HBM4顯存,容量高達432GB,顯存帶寬高達19.6TB/s,每個GPU的擴展帶寬更是達到300GB/s,相對MI350系列的153.6GB/s來講幾乎翻倍。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

MI400系列組建的機架(代號Helios)最高支持72個GPU,FP4/FP8性能分別可達2.9EFLOPS和1.4EFLOPS,下HBM4顯存容量高達31TB,顯存帶寬和擴展帶寬分別達到1.4PB/s和43TB/s。AMD也放出了它和Vera Rubin的理論性能對比,看起來也是優勢非常明顯的,特別是顯存容量和帶寬部分,都領先了50%。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

可以看到,2026年AMD將推出MI400+EPYC(代號VENICE)處理器+PENSANDO(代號VULCANO)400G超級網卡的解決方案,而在2027年,更是會升級到MI500+EPYC(代號VERANO)處理器+PENSANDO(代號VULCANO)400G超級網卡,確保在AI領域方面一直處於領先地位。

值得開發者們期待的ROCm 7來了!

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

今年4月,AMD正式發布了開源GPU計算平台ROCm 6.4版,而在ADVANCING AI 2025大會上,竟然直接宣布了ROCm 7。ROCm 7再度進化,支持最新演算法和模型,支持用於擴展AI的高級功能,支持MI350系列GPU,提供集群管理和企業管理功能。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

ROCm 7增強了推理能力,增強了框架、優化服務、支持新內核和演算法、支持更多的數據類型。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

從官方數據來看,ROCm 7相對ROCm 6在推理性能方面有巨大提升,在Llama 3.1 70B、Qwen2-72B和DeepSeek R1中分別提升220%、240%和280%。平均提升250%左右。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

使用DeepSeek R1模型,和B200在FP8精度下對比的話,有ROCm 7加持的MI355X吞吐量可以領先30%之多。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

ROCm 7的訓練能力也得到大幅增強,支持更多的AMD開源模型、增強框架、更強大的並行能力、更優化的內核和演算法、支持BF16和FP8等高級數據模式。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

和ROCm 6相比,ROCm 7在訓練Llama 2 70B、Llama 3.1 8B和Qwen 1.5 7B時的性能分別提升了200%、200%和210%,升級幅度非常可觀。

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

Linux平台支持度方面, ROCm 7在2025年第二季度將內置對Red Hat EPEL和Ubuntu的支持,而現在已經可以支持OpenSUSE。Windows平台支持度方面,ROCm 7將在2025年第三季度提供對PyTorch的預覽,在2025年7月提供對ONNX-EP的預覽。

總結:全面發展&技術領軍,AMD AI優勢顯露無疑

CDNA 4加持,ROCm 7助陣! AMD INSTINCT MI350系列來了! - 天天要聞

最後來簡單總結一下。

AMD本次在ADVANCING AI 2025上發布的MI350系列GPU和對應的解決方案無疑為用戶提供了全面的AI系統,從而全方位鞏固了自己在AI領域的領軍地位。同時,MI350系列解決方案在AI性能、以及未來AI應用的適應能力方面都具備極強的競爭力,確保了AMD的AI解決方案能夠在面對同級競品時處於優勢地位。

此外,AMD在AI解決方案的生態建設方面也不遺餘力,即將上線的ROCm 7無疑又會讓AMD的AI硬體解決方案增加更豐富的功能、迸發出更強大的性能。可以說每一屆ADVANCING AI大會都見證了AMD在AI領域的進化與成長,即便已經是領軍地位也要不斷戰未來,讓我們拭目以待吧。

財經分類資訊推薦

以熱愛·赴未來 | 好惠花·菏澤會議啟幕合規經營新征程! - 天天要聞

以熱愛·赴未來 | 好惠花·菏澤會議啟幕合規經營新征程!

六月的菏澤,暖風拂動,生機盎然。好惠花「以熱愛·赴未來」主題會議在這片沃土隆重召開。本次會議以「規範市場秩序,推動合規運營」為核心,特邀國家市場監督管理總局執法稽查局原局長楊紅燦蒞臨現場,為與會的行業同仁、平台企業代表帶來了一場兼具政策高度
資金連續10日凈買入合計超23億元!這隻ETF為何受捧? - 天天要聞

資金連續10日凈買入合計超23億元!這隻ETF為何受捧?

6月以來,港股創新葯板塊持續成為市場焦點,交投持續活躍。以全市場規模最大的港股創新葯ETF(513120)為例,截至6月23日,該產品連續10個交易日持續獲資金凈買入,最新規模超125億元,月內日均成交額超75億元,且多次單日成交額突破百億,頻頻登上各大平台熱門ETF交易榜單。wind數據顯示,截至6月23日,該ETF近一年漲超85...
告別董明珠時代,格力晶元這艘巨輪駛向何方? - 天天要聞

告別董明珠時代,格力晶元這艘巨輪駛向何方?

在商業世界的版圖中,每一次關鍵人物的變動都如同投入湖面的石子,激起層層漣漪,引發無數關注與猜測。近日,格力電器旗下的珠海零邊界集成電路有限公司的工商變更信息,就如同這樣一顆石子,打破了行業的平靜——董明珠卸任該公司法定代表人、董事長,由格力電器副總裁李紹斌接任
半導體設備跟蹤! - 天天要聞

半導體設備跟蹤!

周末老美真打後還以為今天市場會有比較大的波動,沒想到,IACO交易橫空出世,外盤整體比較平穩,各大類資產開盤波動後就收斂回來了,賊快。商品那邊利好的油、金、歐線高開低走,A股、港股低開後有不錯的反彈,而且港股超預期的強。
OpenAI前CTO新公司估值百億美元:成立5個月,曾拒絕蘋果收購 - 天天要聞

OpenAI前CTO新公司估值百億美元:成立5個月,曾拒絕蘋果收購

6月24日消息,由前OpenAI首席技術官米拉·穆拉蒂領導的人工智慧創業公司Thinking Machines Lab(TML),在創立不到五個月的時間裡,便成功從包括風險投資公司安德森・霍洛維茨基金(a16z)在內的投資者處籌集20億美元資金,估值飆升至100億美元。 穆拉蒂於2023年因OpenAI高層內訌事件離職,隨後創辦了TML,並招募了來自Open
虛擬貨幣集體大漲,超13萬人爆倉 - 天天要聞

虛擬貨幣集體大漲,超13萬人爆倉

潮新聞客戶端 記者 張雲山 當地時間6月23日,美國總統特朗普表示,以色列和伊朗已完全同意全面停火。 加密貨幣市場全線大漲,比特幣向上一度突破105000美元,日內漲3.9%。以....