在AI晶元這部分,NVIDIA是目前全球範圍內毫無爭議的老大,不但出貨量最高,同時性能部分也是最強的,幾乎全球所有大型AI模型都採用了NVIDIA的AI晶元來提供算力。而在近日,AMD舉行了「Advancing AI」發布會,正式推出了面向AI及HPC領域的GPU產品Instinct MI300A/MI300X加速器,直接與NVIDIA之前最強的AI晶元H100競爭。
事實上,AMD在今年六月就紙面發布MI300A和MI300X,現在MI300A和MI300X已經開始批量量產了,所以在這次發布會上AMD也公布了更多關於MI300A、MI300X的性能數據。AMD MI300A採用了Chiplet設計,其內部擁有多達13個小晶元,基於台積電5nm或6nm製程工藝(CPU/GPU計算核心為5nm,HBM內存和I/O等為6nm),其中許多是3D堆疊的,以便創建一個面積可控的單晶元封裝,總共集成1460 億個晶體管。
MI300A採用新一代的CDNA 3 GPU架構,擁有228個計算單元(14592個核心),並集成了24個Zen 4 CPU內核,配置了128GB的HBM3內存。MI300A的計算核心被8個HBM3內存包圍,單個HBM3的帶寬為6.3GB/s,八個16GB堆棧形成128GB統一內存,帶寬高達5.3 TB/s。 MI300A提供了高達61 TFLOPS FP64算力,多達122 TFLOPS FP32算力。
至於MI300X,內部集成了12個5/6nm工藝的小晶元(HMB和I/O為6nm),擁有1530億個晶體管,採用了更多計算核心的CDNA 3 GPU。MI300X的每個基於CDNA 3 GPU架構的GCD總共有40個計算單元,相當於2560個內核。總共有八個計算晶元(GCD),因此總共有320個計算和20480個核心單元。不過,就目前的量產版而言,會稍微有一些縮水。
在內存帶寬方面,MI300X也配備了更大的 192GB HBM3內存,帶來高達5.2TB/s的帶寬和896GB/s的Infinity Fabric帶寬。大型內存池在LLM(大語言模型)中非常重要,LLM大多是與內存綁定的,AMD可以通過在HBM內存容量上的領先地位來提升人工智慧能力。
具體來看性能提升,MI300A APU提供了相比H100高達4倍的性能提升,與NVIDIA的Grace Hopper超級晶元相比,該系統每瓦的性能也提高了2倍。而更像純粹GPU架構的MI300X,在具體的AI大模型加速性能對比當中,相比H100在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的性能提升。在各種整數和浮點性能上,MI300X都是H100的1.3倍,這的確相當讓人震驚。
AMD之前內部估計全球數據中心AI加速器市場在2023年的規模可達約300億美元,今後每年的複合增長率都能超過50%,到2027年將形成超過1500億美元的價值。而現在AMD已經將2023年、2027年的數據中心AI加速器市場規模預期分別調高到400億美元、4500億美元,年複合增長率超過70%。
從目前來看,針對AI市場,AMD拿出了比NVIDIA更全面的方案,MI300A作為一個APU方案,實際上解決了很多廠商的問題,終端廠商只要採購MI300A就能自己推出OEM的AI PC;而在純GPU方案上,MI300X現在也要強於H100不少,目前AMD要做的就是完善自己的生態,從而讓更多廠商選擇自己的晶元。當然無論是MI300A還是MI300X,其算力早就超過了美國出口管制的底線,所以這兩款晶元大概率是沒法在國內銷售的。在美國商務部點名NVIDIA之後,AMD可能不會針對國內市場推出特供版。