目前AI算力密度最高的應該是Nvidia推出的120KW的NVL72機櫃,其內配備了72個Blackwell GPU晶元。而這一記錄即將被打破,HPE將推出一個新的Cray EX154n平台,單個機櫃內塞入了224個Nvidia Blackwell GPU和8064個Grace CPU核心。如果算力平台有世界記錄的話,HPE的EX154n無疑將摘得此桂冠。
在單個機櫃內擁有如此豪華的配置,其性能簡直爆表。在HPC負載方面,單個EX154平台就擁有相當於FP64精度下的10 petaFLOPS性能;如果以AI和機器學習工作負載計算,其性能將超過4.4 exaFLOPS以上,因為AI等負載對精度的追求並不太高。
HPE設計製造的設備總是有種科技朋克的既視感,而EX154n可以說是這方面的典型代表:每個EX154n刀片伺服器中將配備兩顆2.7KW的Grace Blackwell超級晶元(即GB200),每顆晶元配備兩個Blackwell GPU和一顆72核心的Arm CPU,這兩個超級晶元通過Nvidia NVL4進行互聯。
在EX154n機櫃級別,還集成了全新的Slingshot 400系列乙太網NIC和交換機。從名字上看就知道,Slingshot 400是上一代產品的升級,帶寬從200Gbps提升到400Gbps,以當前的乙太網和InfiniBand網路保持一致。單個EX154n機櫃僅算力組件的能耗就達到了300KW以上,在如此高功率密度下,HPE毫不意外地選擇了液冷散熱方式。
HPE預計,這一真正的性能巨獸將在2025年底開始出貨。
除此之外,HPE還推出了基於x86處理器的第五代Cray平台,基於AMD EPYC處理器的EX4252 G2平台,每個機櫃最高可配備8個192核心的Turin-C處理器,總計高達98304個核心。