各位亲爱的网友们,大家好!
在2025年超级计算大会上,EuroHPC、AMD和Eviden宣布,欧洲第二套百亿亿次级超级计算机系统将被命名为Alice Recoque。该系统采用Eviden的BullSequena XH3500平台,并使用AMD即将推出的Instinct MI430X作为其主要计算组件。Alice Recoque的HPL性能将“持续超过1 Exaflop/s……且耗电量低于15兆瓦”。
现在,AMD 还没有公布 MI430X 的 FLOPs 是多少,但可能已经有足够的信息让我们对 MI430X 的潜在 FP64 FLOPs 进行一番思考实验。
就我们目前所知:
– Alice Recoque 将由 94 个 XH3500 机架组成
– Alice Recoque 实际使用功率不足 15 兆瓦,但该设施可提供 24 兆瓦电力和 20 兆瓦制冷。
BullSequena XH3500 每机架最大功率为 264 千瓦
BullSequena XH3500 每机架 38U。
BullSequena XH3500 的滑架有两种规格:2U 用于交换机滑架和 8 个计算滑架,1U 用于 4 个计算滑架。
我们还知道,HPE 将单个 MI430X 的功耗标定在 2000 瓦到 2500 瓦之间。
Alice Recoque 有 3 种不同的能耗数值:
-
小于15兆瓦
-
该设施的热极限为20兆瓦冷却功率。
-
设施功率限制为24兆瓦
这样一来,XH3500机架就有了3种可能的配置方式:
-
对于功率低于 15 兆瓦的系统,需要 16 个计算节点,每个节点配备 1 个 Venice CPU 和 4 个 MI430X,以及 8 个交换机刀片。
-
对于这套 20 兆瓦的系统,包括 18 个计算节点,每个节点配备 1 个 Venice CPU 和 4 个 MI430X,以及 9 个交换机刀片。
-
该24兆瓦系统包含20个计算节点,每个节点配备1个Venice CPU和4个MI430X,以及8个交换机刀片。
本次计算中,我将采用中间配置,即每个机架包含 18 个计算节点和 9 个交换节点,并假设整套 Alice Recoque 超级计算机的最大持续能耗约为 20 兆瓦。这意味着单个 XH3500 机架的最大功耗约为 200 千瓦。因此,我假设每个计算节点的功耗约为 10.5 千瓦,由此估算出每个 MI430X 的 TDP 约为 2300 瓦。这样,计算刀片服务器的其余部分(包括 TDP 高达 600 瓦的 Venice CPU)的功耗约为 1300 瓦。
Alice Recoque 超级计算机拥有 94 个机架、18 个计算节点,每个刀片服务器配备 4 个 MI430X 处理器,总共 6768 个 GPU。假设 Alice Recoque 的 HPL Rmax 值指的是“持续性能超过 1 Exaflop/s 的 HPL 性能”,并且 Rmax 与 Rpeak 的比率约为 70%(与 Frontier 的比率类似),那么 Alice Recoque 的 HPL Rpeak 至少为 1.43 Exaflops。将 HPL Rpeak 值除以 MI430X 的数量,即可得出 MI430X 的 FP64 向量浮点运算性能约为 211 Teraflops。
MI430X 将约 211 Teraflops 的 FP64 向量运算能力与 432 GB 的 HBM4 显存相结合,使其拥有 19.6 TB/s 的内存带宽;不出所料,这与 MI450X 的内存子系统相同。高性能计算 (HPC) 的一个重要指标是给定内存带宽下的计算量,通常用每字节浮点运算次数 (FLOPs per Byte,简称 F/B) 表示。对于许多 HPC 任务而言,其运算强度较低,因此较低的 F/B 值更受欢迎,因为大多数 HPC 代码都受限于内存带宽。
假设 MI430X 的 FP64 向量运算能力为 211TF,那么在每字节浮点运算次数 (FLOPs per Byte) 方面,MI430X 就超越了 AMD 此前两款专注于高性能计算 (HPC) 的加速器。然而,与英伟达的产品相比,MI430X 的 FP64 每字节浮点运算次数仍然更高。但与英伟达最新和即将推出的加速器相比,MI430X 还有两张王牌。
第一个优势是,MI430X 的带宽比 AMD 之前的产品要高得多,而且其内存带宽甚至比 Nvidia 即将推出的 Rubin 加速器还要高,这对于 HPC 中大量受限于内存带宽的任务来说非常重要。
第二个优势是,MI430X 的 HBM 容量几乎是 AMD 先前加速器的 3.5 倍,比英伟达即将推出的 Rubin 的 HBM 容量高出 50%,这意味着单个 MI430X 可以容纳更大的数据集。
ORNL即将推出的Discovery超级计算机
在 2025 年超级计算大会召开前夕,AMD、HPE 和美国能源部宣布将替换 Frontier 超级计算机,代号为 Discovery,该计算机将于 2028 年交付,并于 2029 年在田纳西州橡树岭国家实验室启用。
除此之外,我们对 Discovery 了解甚少,只知道它将使用 HPE 的新型 GX5000 平台,并且将使用 AMD 的 Venice CPU 和 MI430X 加速器。
说到 HPE 的 GX5000 平台,它有 3 种初始计算刀片配置:
-
GX250:GX250刀片服务器配备8个Venice CPU,每个机架最多可容纳40个刀片服务器,因此每个GX5000机架最多可容纳320个Venice CPU。
-
GX350a:GX350a刀片服务器配备1个Venice CPU和4个MI430X加速器,每个机架最多可容纳28个刀片服务器,因此每个GX5000机架总共可容纳28个Venice CPU和112个MI430X加速器。
-
GX440n:GX440n刀片服务器每个刀片配备4个Nvidia Vera CPU和8个Rubin加速器,每个机架最多可容纳24个刀片服务器,因此每个GX5000机架总共配备96个Vera CPU和192个Rubin加速器。
目前的 GX5000 平台每个机架可提供高达 400 千瓦的功率,这很可能适用于完整的 GX440n 配置,其中 192 个 Rubin 处理器(每个额定功率 1800 瓦)本身就消耗约 350 千瓦的功率,更不用说 CPU、内存等其他组件的功耗了。GX5000 的占地面积也只有上一代 EX4000 的一半左右(1.08 平方米对比 2.055 平方米)。这意味着,一个 EX4000 机架的空间可以容纳两个 GX5000 机架。
对于 Discovery 来说,我们感兴趣的配置是 GX5000 的 GX350a 配置。目前尚未公布的是 HPL 加速目标,但预计 Discovery 在基准测试和科学应用方面的计算吞吐量将比 Frontier 高出三到五倍。
由于“性能提升三到五倍”的具体含义尚不明确,无论是指实际高性能计算工作负载下的速度提升三到五倍,还是指 LINPACK 测试中的速度提升三到五倍,我拟提出两种不同的 Discovery 配置:
-
这种配置方案能够适应 Frontier 大楼目前的电力和占地面积。
-
2024年8月30日,最终选定的配置方案性能约为当时Frontier Rpeak的4倍,约为1.714 Exaflops。
第一种配置方案中,Frontier 的计算系统使用了 74 个 EX4000 机架,这意味着该楼层空间大约可以容纳 140 个 GX5000 机架。这意味着 Discovery 将拥有总共 3,920 个 Venice CPU 和 15,680 个 MI430X 加速器,HPL Rpeak 的计算能力约为 3.3 Exaflops。
假设每个 GX5000 机架的功耗约为 250 千瓦,那么 3 Exaflops 的 Rpeak 性能将大致消耗 35 兆瓦的电力。虽然这比 Frontier 在 HPL 的功耗高出 10 兆瓦,但 Frontier 的办公楼设计容量可达 40 兆瓦,因此这 140 个机架的配置刚好符合 Frontier 办公楼的电力和占地面积要求。然而,如果将每个机架的功耗降低到 160 千瓦,那么 Discovery 就能轻松满足 Frontier 的电力需求。
对于第二种配置,我采用Discovery的最高速度预估值,即比Frontier快五倍,并采用大约是Frontier在2024年8月左右达到的Rpeak性能五倍的配置,这将使Discovery成为一个约8.5 Exaflop的系统。这将需要大约360个GX5000机架,总共需要10,080个Venice CPU和40,320个MI430X加速器。
这种配置可能需要对电力和机房空间进行升级才能容纳该系统。机房空间方面,这种配置可能需要超过 1600 平方米。电力方面,假设每个 GX5000 机架的功率为 250 千瓦,则这种配置的总功耗将超过 90 兆瓦;但是,如果将每个机架的功率降低到 160 千瓦左右,则 Discovery 的总功耗将控制在 55 至 60 兆瓦之间。
Discovery 最可能的配置可能介于这两种配置之间。然而,有传言称中国可能拥有一台超级计算机,其 HPL Rmax 运算速度超过 2 Exaflops,功耗为 300 兆瓦;此外,还有一台潜在的配套计算机,功耗为前者的 2.5 倍,达到 800 兆瓦,运算速度可能超过 5 Exaflops。因此,这或许会促使美国能源部选择最大的配置,甚至可能是 Frontier 五倍以上的配置。
无论 Discovery 最终的配置如何,对于高性能计算领域来说,这无疑是一个激动人心的时刻!
如果你喜欢这些内容,可以考虑前往Patreon或PayPal为 Chips and Cheese 捐赠一些钱。也欢迎加入我们的 Discord 服务器。
原文: https://chipsandcheese.com/p/sc25-estimating-amds-upcoming-mi430xs


