蘇媽聯手OpenAI,AMD發佈3nm怪獸MI355X,性能碾壓英偉達B200!

編輯:犀牛 英智

新智元導讀】AI芯片戰爭進入白熱化! AMD在Advancing AI大會發佈了3nm工藝的MI355X以1850億晶體管、288GB HBM3e顯存實現最高2.2倍於英偉達B200的推理性能;明年推出的MI400系列更將搭載423GB HBM4顯存。


就在昨天,AMD Advancing AI大會上,AMD董事長兼首席執行官蘇資豐一口氣推出了其史上最強的AI新品組合!

這些新產品有:

  • AMD Instinct MI350系列AI芯片
  • AMD Instinct MI400系列AI芯片(明年推出)
  • 全新AI軟件棧ROCm 7.0
  • 「Helios」AI機架級基礎設施(明年推出)
  • 全新AMD開發者雲

其中Instinct MI350系列,包括MI350X和旗艦MI355X,基於台積電3納米工藝節點的全新CDNA 4架構,集成高達1850億個晶體管

這兩款芯片的主要區別在於散熱方式不同,前者使用風冷,後者使用更先進的液冷。

新芯片支持最新的FP6和FP4人工智能數據類型,並配備了超大容量的HBM3e內存。

在FP6推理精度上,AMD Instinct MI355X相比B200有2.2倍的速度提升。

現場,蘇媽還補充了MI400系列的細節。

MI400將採用HBM4顯存,每顆GPU提供423GB容量,並通過Pensando網卡支持300GB/s的連接,將於明年推出。

性能相比Instinct MI355X又是巨大的飛躍。

基於MI400系列芯片的AMD首個AI機架「Helios」,也將在明年推出。

Helios支持將多達72個MI400集成,支持高達260T/s的擴展帶寬,FP4峰值算力達到了2.9EFLOPS。

「這是世界上最好的AI機架解決方案」,蘇媽表示。


奧特曼壓軸登場,

AMD開啟與OpenAI合作

現場的一個亮點是OpenAI CEO奧特曼作為嘉賓壓軸出場,他表示OpenAI將使用AMD的AI芯片。

蘇媽表示對與OpenAI的合作感到興奮。

「當你最初向我介紹規格時,我簡直不敢相信,那聽起來太瘋狂了,」奧特曼說「不過這東西絕對會很厲害」。

AMD的機架式設計會讓芯片看來就像一個整體系統,這對大多數客戶,比如雲服務商和大語言模型公司來說非常重要。

這些客戶想要的就是「超大規模」的人工智能計算集群,能覆蓋整個數據中心,當然耗電量也會超級大。

「可以把Helios想像成一個機架,但它運作起來就像一台超強的單體計算引擎,」蘇媽說。

AMD的新機架技術令蘇媽有底氣與黃仁勛掰掰手腕。英偉達是AMD的主要也是唯一的對手。

據透露,英偉達的大客戶OpenAI一直在給AMD的MI400系列芯片提建議。

這種芯片功耗更低,運行成本更便宜,而且AMD採用激進的定價策略來挑戰英偉達。

蘇媽表示,儘管英偉達有獨家的CUDA軟件,但即使MI355X芯片性能就可以超過英偉達的Blackwell芯片。

「這說明我們的硬件很強,也表明開源軟件框架取得了巨大進步,」蘇媽說。


AMD的AI路線圖更加清晰


Instinct MI350系列

AMD Instinct MI350系列是AMD迄今為止最先進的生成式AI平台,標誌着數據中心AI計算的重大突破。

這款芯片採用3nm製程工藝,集成了1850億顆晶體管,基於AMD CDNA 4架構,配備288GB HBM3e內存,內存帶寬高達8TB/s。

單顆MI350 GPU即可運行參數量高達5200億的大型模型,展現了其在AI訓練和推理中的強大能力。

MI350系列在FP4/FP6精度下的峰值算力達到20PFLOPS,是上一代MI300X的4倍,其推理性能更是提升了35倍。

在運行DeepSeek R1模型時,MI350系列的推理吞吐量超越了英偉達B200,展現出強勁的競爭力。

MI350系列包括MI350X和MI355X兩款產品,均採用相同的計算架構和內存配置。

相比MI300系列,MI355X在低精度數據類型處理上進行了大幅優化,以滿足現代AI應用的需求。

MI350系列採用UBB8版型設計,每個節點配備8塊GPU,通過153.6GB/s的Infinity Fabric雙向鏈路實現高效通信。

在8卡配置下,MI355X系統提供2.3TB HBM3e內存和64TB/s內存帶寬,FP4/FP6精度下峰值算力高達161PFLOPS。

在機架級部署中,MI350系列展現出強大的擴展能力。

風冷機架最多支持64塊GPU,提供18TB HBM3e內存;直接液冷機架可容納128塊GPU,內存容量達36TB,FP4性能高達2.6E FLOPS。

這種超大規模的系統配置,使MI350系列能夠輕鬆應對複雜AI工作負載,為企業級AI應用提供堅實支持。

AMD Instinct MI400系列(明年推出)

蘇媽還公布了其下一代AI芯片Instinct MI400系列的細節。

這款預計於2026年推出的芯片專為大規模AI訓練和分佈式推理設計,性能較前代MI355X提升高達10倍。

MI400系列在算力上實現了巨大突破。

在FP4精度下,其峰值算力高達40PFLOPS(每秒40千萬億次浮點運算),FP8精度下也能達到20PFLOPS的出色表現。

MI400系列搭載了432GB的HBM4內存,內存帶寬達到驚人的19.6TB/s。

這種超高帶寬的內存設計顯著提升了數據處理效率,為複雜AI任務提供了強大的支持。

此外,每塊GPU支持300GB/s的橫向擴展帶寬,通過Pensando NIC和超以太網技術實現跨機架和集群的高效互連,確保分佈式計算環境下的無縫協作。

相比上一代MI355X,MI400系列通過引入HBM4內存、優化計算單元和增強互聯技術,實現了性能10倍的飛躍。

此外,MI400系列在能效和擴展性上的優化,使其在應對多樣化AI工作負載時更具靈活性。

無論是訓練超大規模語言模型,還是進行分佈式推理,MI400都能提供高效、穩定的計算支持。

在MI400系列的發佈會上,OpenAI首席執行官Sam Altman親自登台,對MI450型號給予高度評價。

他表示,OpenAI與AMD工程團隊密切合作,深入探討市場需求,助力MI400系列的開發。

全新AI軟件棧ROCm 7.0 重磅來襲

預計2025年第三季度,ROCm 7將全面上線,支持MI350系列GPU。

亮點如下:

  1. 性能暴漲:相比ROCm 6,ROCm 7推理性能提升超3.5倍,訓練性能提升3倍!這得益於對FP4、FP6等低精度數據類型的支持、通信棧優化以及更高的GPU利用率和數據移動效率。在Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型上,ROCm 7推理和訓練性能比前代提升3.2~3.8倍。

  1. 分佈式推理更強:ROCm 7引入強大的分佈式推理方法,與SGLang、vLLM、llm-d等開源框架深度合作,開發共享接口和原語,實現在AMD平台上的高效分佈式推理。相比之下,英偉達的TensorRT-LLM不支持DeepSeek R1的FP8精度,而AMD合作的開源框架完美支持,MI355X的推理吞吐量比英偉達B200高出30%。
  2. 企業級AI解決方案:ROCm企業級AI軟件棧首次亮相,打造全棧MLOps平台,專為企業AI操作設計,提供安全、可擴展的交鑰匙工具,支持模型微調、合規性、部署和集成。
  3. 端側AI開發新體驗:ROCm擴展到Ryzen筆記本電腦和工作站,支持AI輔助編碼、自動化定製、推理和模型微調。

AMD通過開源戰略和ROCm的持續創新,不僅在AI性能上大步向前,還為開發者、企業和用戶帶來了更開放、更高效的AI生態!

「Helios」AI機架級基礎設施(明年推出)

明年,AMD將推出下一代AI機架解決方案——Helios,集成更強悍的EPYC 「Venice」 CPU、MI400系列GPU和Pensando 「Vulcano」 NIC。

這套架構支持超以太網(Ultra Ethernet)實現橫向擴展,結合UALink(Ultra Accelerator Link)實現縱向擴展,還配備Fabric Manager作為ROCm生命周期管理的一部分,助力基礎設施自動化,省心又高效。

2026年,下一代Pensando 「Vulcano」 AI NIC將作為MI400系列的標配推出。

Vulcano採用3nm製程,提供800G網絡吞吐量,每GPU橫向擴展帶寬是上一代的8倍,支持UAL和PCIe Gen6,帶寬翻倍,可擴展至100萬塊GPU,且軟件完全向前向後兼容。

全新AMD開發者雲

AMD首次推出了開發者雲,助力開發者輕鬆上手AI開發!

無需自購硬件或繁瑣配置,只需一個Github賬號或郵箱,就能即刻訪問ROCm和AMD GPU。

這個全託管平台提供對MI300X GPU的即時訪問,省去硬件投資和本地設置的麻煩。Docker容器已預裝熱門AI軟件,節省安裝時間,同時保留代碼定製的靈活性。

計算選項靈活可擴展:

  • 小型:1個MI300X GPU(192GB GPU內存)
  • 大型:8個MI300X GPU(1536GB GPU內存)

首批註冊的開發者可獲25小時免費使用時長,通過ROCm Star開發者證書等計劃,還能額外獲得最多50小時的免費時間。