目前AI算力密度最高的应该是Nvidia推出的120KW的NVL72机柜,其内配备了72个Blackwell GPU芯片。而这一记录即将被打破,HPE将推出一个新的Cray EX154n平台,单个机柜内塞入了224个Nvidia Blackwell GPU和8064个Grace CPU核心。如果算力平台有世界记录的话,HPE的EX154n无疑将摘得此桂冠。
在单个机柜内拥有如此豪华的配置,其性能简直爆表。在HPC负载方面,单个EX154平台就拥有相当于FP64精度下的10 petaFLOPS性能;如果以AI和机器学习工作负载计算,其性能将超过4.4 exaFLOPS以上,因为AI等负载对精度的追求并不太高。
HPE设计制造的设备总是有种科技朋克的既视感,而EX154n可以说是这方面的典型代表:每个EX154n刀片服务器中将配备两颗2.7KW的Grace Blackwell超级芯片(即GB200),每颗芯片配备两个Blackwell GPU和一颗72核心的Arm CPU,这两个超级芯片通过Nvidia NVL4进行互联。
在EX154n机柜级别,还集成了全新的Slingshot 400系列以太网NIC和交换机。从名字上看就知道,Slingshot 400是上一代产品的升级,带宽从200Gbps提升到400Gbps,以当前的以太网和InfiniBand网络保持一致。单个EX154n机柜仅算力组件的能耗就达到了300KW以上,在如此高功率密度下,HPE毫不意外地选择了液冷散热方式。
HPE预计,这一真正的性能巨兽将在2025年底开始出货。
除此之外,HPE还推出了基于x86处理器的第五代Cray平台,基于AMD EPYC处理器的EX4252 G2平台,每个机柜最高可配备8个192核心的Turin-C处理器,总计高达98304个核心。