蘇媽聯手OpenAI，AMD發佈3nm怪獸MI355X，性能碾壓英偉達B200！

分類：科技

瀏覽數：1445

2025-06-13

編輯：犀牛英智

【新智元導讀】AI芯片戰爭進入白熱化！ AMD在Advancing AI大會發佈了3nm工藝的MI355X以1850億晶體管、288GB HBM3e顯存實現最高2.2倍於英偉達B200的推理性能；明年推出的MI400系列更將搭載423GB HBM4顯存。

就在昨天，AMD Advancing AI大會上，AMD董事長兼首席執行官蘇資豐一口氣推出了其史上最強的AI新品組合！

這些新產品有：

AMD Instinct MI350系列AI芯片
AMD Instinct MI400系列AI芯片（明年推出）
全新AI軟件棧ROCm 7.0
「Helios」AI機架級基礎設施（明年推出）
全新AMD開發者雲

其中Instinct MI350系列，包括MI350X和旗艦MI355X，基於台積電3納米工藝節點的全新CDNA 4架構，集成高達1850億個晶體管。

這兩款芯片的主要區別在於散熱方式不同，前者使用風冷，後者使用更先進的液冷。

新芯片支持最新的FP6和FP4人工智能數據類型，並配備了超大容量的HBM3e內存。

在FP6推理精度上，AMD Instinct MI355X相比B200有2.2倍的速度提升。

現場，蘇媽還補充了MI400系列的細節。

MI400將採用HBM4顯存，每顆GPU提供423GB容量，並通過Pensando網卡支持300GB/s的連接，將於明年推出。

性能相比Instinct MI355X又是巨大的飛躍。

基於MI400系列芯片的AMD首個AI機架「Helios」，也將在明年推出。

Helios支持將多達72個MI400集成，支持高達260T/s的擴展帶寬，FP4峰值算力達到了2.9EFLOPS。

「這是世界上最好的AI機架解決方案」，蘇媽表示。

奧特曼壓軸登場，

AMD開啟與OpenAI合作

現場的一個亮點是OpenAI CEO奧特曼作為嘉賓壓軸出場，他表示OpenAI將使用AMD的AI芯片。

蘇媽表示對與OpenAI的合作感到興奮。

「當你最初向我介紹規格時，我簡直不敢相信，那聽起來太瘋狂了，」奧特曼說「不過這東西絕對會很厲害」。

AMD的機架式設計會讓芯片看來就像一個整體系統，這對大多數客戶，比如雲服務商和大語言模型公司來說非常重要。

這些客戶想要的就是「超大規模」的人工智能計算集群，能覆蓋整個數據中心，當然耗電量也會超級大。

「可以把Helios想像成一個機架，但它運作起來就像一台超強的單體計算引擎，」蘇媽說。

AMD的新機架技術令蘇媽有底氣與黃仁勛掰掰手腕。英偉達是AMD的主要也是唯一的對手。

據透露，英偉達的大客戶OpenAI一直在給AMD的MI400系列芯片提建議。

這種芯片功耗更低，運行成本更便宜，而且AMD採用激進的定價策略來挑戰英偉達。

蘇媽表示，儘管英偉達有獨家的CUDA軟件，但即使MI355X芯片性能就可以超過英偉達的Blackwell芯片。

「這說明我們的硬件很強，也表明開源軟件框架取得了巨大進步，」蘇媽說。

AMD的AI路線圖更加清晰

Instinct MI350系列

AMD Instinct MI350系列是AMD迄今為止最先進的生成式AI平台，標誌着數據中心AI計算的重大突破。

這款芯片採用3nm製程工藝，集成了1850億顆晶體管，基於AMD CDNA 4架構，配備288GB HBM3e內存，內存帶寬高達8TB/s。

單顆MI350 GPU即可運行參數量高達5200億的大型模型，展現了其在AI訓練和推理中的強大能力。

MI350系列在FP4/FP6精度下的峰值算力達到20PFLOPS，是上一代MI300X的4倍，其推理性能更是提升了35倍。

在運行DeepSeek R1模型時，MI350系列的推理吞吐量超越了英偉達B200，展現出強勁的競爭力。

MI350系列包括MI350X和MI355X兩款產品，均採用相同的計算架構和內存配置。

相比MI300系列，MI355X在低精度數據類型處理上進行了大幅優化，以滿足現代AI應用的需求。

MI350系列採用UBB8版型設計，每個節點配備8塊GPU，通過153.6GB/s的Infinity Fabric雙向鏈路實現高效通信。

在8卡配置下，MI355X系統提供2.3TB HBM3e內存和64TB/s內存帶寬，FP4/FP6精度下峰值算力高達161PFLOPS。

在機架級部署中，MI350系列展現出強大的擴展能力。

風冷機架最多支持64塊GPU，提供18TB HBM3e內存；直接液冷機架可容納128塊GPU，內存容量達36TB，FP4性能高達2.6E FLOPS。

這種超大規模的系統配置，使MI350系列能夠輕鬆應對複雜AI工作負載，為企業級AI應用提供堅實支持。

AMD Instinct MI400系列（明年推出）

蘇媽還公布了其下一代AI芯片Instinct MI400系列的細節。

這款預計於2026年推出的芯片專為大規模AI訓練和分佈式推理設計，性能較前代MI355X提升高達10倍。

MI400系列在算力上實現了巨大突破。

在FP4精度下，其峰值算力高達40PFLOPS（每秒40千萬億次浮點運算），FP8精度下也能達到20PFLOPS的出色表現。

MI400系列搭載了432GB的HBM4內存，內存帶寬達到驚人的19.6TB/s。

這種超高帶寬的內存設計顯著提升了數據處理效率，為複雜AI任務提供了強大的支持。

此外，每塊GPU支持300GB/s的橫向擴展帶寬，通過Pensando NIC和超以太網技術實現跨機架和集群的高效互連，確保分佈式計算環境下的無縫協作。

相比上一代MI355X，MI400系列通過引入HBM4內存、優化計算單元和增強互聯技術，實現了性能10倍的飛躍。

此外，MI400系列在能效和擴展性上的優化，使其在應對多樣化AI工作負載時更具靈活性。

無論是訓練超大規模語言模型，還是進行分佈式推理，MI400都能提供高效、穩定的計算支持。

在MI400系列的發佈會上，OpenAI首席執行官Sam Altman親自登台，對MI450型號給予高度評價。

他表示，OpenAI與AMD工程團隊密切合作，深入探討市場需求，助力MI400系列的開發。

全新AI軟件棧ROCm 7.0 重磅來襲

預計2025年第三季度，ROCm 7將全面上線，支持MI350系列GPU。

亮點如下：

性能暴漲：相比ROCm 6，ROCm 7推理性能提升超3.5倍，訓練性能提升3倍！這得益於對FP4、FP6等低精度數據類型的支持、通信棧優化以及更高的GPU利用率和數據移動效率。在Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型上，ROCm 7推理和訓練性能比前代提升3.2~3.8倍。

分佈式推理更強：ROCm 7引入強大的分佈式推理方法，與SGLang、vLLM、llm-d等開源框架深度合作，開發共享接口和原語，實現在AMD平台上的高效分佈式推理。相比之下，英偉達的TensorRT-LLM不支持DeepSeek R1的FP8精度，而AMD合作的開源框架完美支持，MI355X的推理吞吐量比英偉達B200高出30%。
企業級AI解決方案：ROCm企業級AI軟件棧首次亮相，打造全棧MLOps平台，專為企業AI操作設計，提供安全、可擴展的交鑰匙工具，支持模型微調、合規性、部署和集成。
端側AI開發新體驗：ROCm擴展到Ryzen筆記本電腦和工作站，支持AI輔助編碼、自動化定製、推理和模型微調。

AMD通過開源戰略和ROCm的持續創新，不僅在AI性能上大步向前，還為開發者、企業和用戶帶來了更開放、更高效的AI生態！

「Helios」AI機架級基礎設施（明年推出）

明年，AMD將推出下一代AI機架解決方案——Helios，集成更強悍的EPYC 「Venice」 CPU、MI400系列GPU和Pensando 「Vulcano」 NIC。

這套架構支持超以太網（Ultra Ethernet）實現橫向擴展，結合UALink（Ultra Accelerator Link）實現縱向擴展，還配備Fabric Manager作為ROCm生命周期管理的一部分，助力基礎設施自動化，省心又高效。

2026年，下一代Pensando 「Vulcano」 AI NIC將作為MI400系列的標配推出。

Vulcano採用3nm製程，提供800G網絡吞吐量，每GPU橫向擴展帶寬是上一代的8倍，支持UAL和PCIe Gen6，帶寬翻倍，可擴展至100萬塊GPU，且軟件完全向前向後兼容。

全新AMD開發者雲

AMD首次推出了開發者雲，助力開發者輕鬆上手AI開發！

無需自購硬件或繁瑣配置，只需一個Github賬號或郵箱，就能即刻訪問ROCm和AMD GPU。

這個全託管平台提供對MI300X GPU的即時訪問，省去硬件投資和本地設置的麻煩。Docker容器已預裝熱門AI軟件，節省安裝時間，同時保留代碼定製的靈活性。

計算選項靈活可擴展：

小型：1個MI300X GPU（192GB GPU內存）
大型：8個MI300X GPU（1536GB GPU內存）

首批註冊的開發者可獲25小時免費使用時長，通過ROCm Star開發者證書等計劃，還能額外獲得最多50小時的免費時間。

科技分類資訊推薦