各位互联网好朋友,大家好,
在 AMD 的 Advancing AI 2025 大会上,我有幸采访了 AMD 高级研究员兼首席本能架构师 Alan Smith,讨论了 MI350 系列加速器中的 CDNA4。
希望大家喜欢!
下面的文字记录已进行编辑,以便简洁易读。
George:各位互联网朋友们,大家好!今天我们来参加 AMD 的 Advancing AI 2025 活动,MI350 系列刚刚发布。我很高兴向大家介绍 AMD 的 Alan Smith。
艾伦:大家好。
乔治:您在 AMD 做什么工作?
艾伦:我是 Instinct GPU 的首席架构师。
乔治:太棒了,这份工作需要做什么?
艾伦:所以我负责 GPU 产品线定义,与我们的数据中心 GPU 业务合作伙伴一起定义,与他们一起定义 GPU 的要求,然后与设计团队合作实现这些要求。
乔治:太棒了。那么,说到 MI350:MI350 仍然基于 GFX9,而且——对于在座的各位,GFX9 也被称为 Vega,或者至少是 GFX9 的衍生产品。为什么 MI350 仍然基于 GFX9,而像 RDNA 3 和 4 这样的客户端分别基于 GFX11 和 12?
Alan:好的,这是个好问题。正如您所知,从 MI100 开始,以及之前几代 Instinct GPU 的 CDNA 架构,就像您说的,在 Vega 中,都是 GCN 架构,也就是 Graphics Core Next。经过几代的发展,CDNA 已经针对高性能计算和人工智能的各种分布式计算算法进行了高度优化。因此,我们觉得以 MI350 为基础,可以为我们提供实现 MI350 系列性能目标所需的正确组件。
George:您知道,GCN 有独立的 L1 缓存和 LDS(本地数据存储)。为什么 MI350 中仍然保留着这两个功能?为什么它们还没有合并?
Alan:是的,就像你说的,它是 GCN 架构的遗留部分。它在某种程度上是计算单元构建方式的基础。所以我们觉得在这一代,现在不是进行如此大规模微架构变革的合适时机。所以我们采取的措施是增加 LDS 的容量。之前在 MI300 系列中,我们的 LDS 容量为 64 KB,而在 MI350 系列中,我们将容量提升到了 160 KB。此外,我们还增加了带宽。我们将 LDS 的带宽加倍,以便能够支持 MI350 系列中 Tensor Core 的速率。
George:说到 Tensor Core,您现在已经为 MI350x 引入了针对 FP8、FP6 和 FP4 数据类型的微缩放格式。有趣的是,MI350 的一个主要区别在于 FP6 的速率与 FP4 相同。您能简单谈谈这是如何实现的,以及背后的原因吗?
Alan:是的,是的。我们觉得 MI350 在这个时间段内即将进入市场,考虑到 AI 的现状……我们觉得 FP6 这种格式不仅有潜力用于推理,还可能用于训练。因此,我们希望确保 FP6 的功能相对于……其他人可能正在实现或已经实现的功能而言是一流的。正如你所知,设计硬件需要很长的准备时间,所以我们几年前就考虑过这个问题,并希望确保 MI350 在 FP6 性能方面处于领先地位。因此,我们决定以与 FP4 数据路径相同的吞吐量实现 FP6 数据路径。当然,为了做到这一点,我们必须增加一些硬件。FP6 显然比 FP4 的位数更多,这就是它被称为 FP6 的原因。但我们能够在矩阵引擎的限制范围内做到这一点,并且以非常节能和节省面积的方式做到这一点。
George:说到数据类型,我注意到 TF32 不在您的硬件级加速操作列表中。为什么要删除该功能……或者为什么它不是 MI350 的主要考虑因素?
Alan:是的,嗯,这的确是经过考虑的,对吧?因为我们确实删除了它。我们觉得在这个时间范围内,BF16 浮点数格式(Brain Float 16,即 BF16)应该可以成为大多数模型用来替代 TF32 的格式。而且 BF16 的吞吐量比 TF32 高得多,所以我们觉得这是这次实现的正确权衡。
乔治:如果我使用 TF32,速度会是多少?还是 FP32 的速度吗?
Alan:您可以选择。我们提供一些仿真,我目前还不清楚具体的吞吐量细节;但我们确实提供基于软件的仿真,使用 BF16 来模拟 TF32,或者您也可以直接将其转换为 FP32 并以 FP32 速率使用。
George:从计算单元 (CU) 升级到 XCD,也就是计算芯片;新的计算芯片现在在 N3P 上,但芯片上的物理 CU 数量却从 40 个减少到了 36 个,每个着色器引擎的 CU 数量被融合掉了 4 个。为什么现在是 32 个 CU?为什么会减少这么多?
Alan:是的,MI300 的 MI300X 和 MI300A 是我们共同设计的,一个用于 HPC,一个用于 AI。MI300A 中只有六个 XCD。因此,我们希望确保即使只有六个加速器芯片组,也能拥有足够的计算单元来支持 HPC 或高性能计算(即 FP64 中的传统模拟),从而达到我们针对该市场的领先级超级计算机的性能水平。
于是我们做到了,并与 Lawrence Livermore 一起推出了世界上速度最快的超级计算机 El Capitan。但出于这方面的考虑,我们希望为 XCD 配备更多计算单元,以便在 MI300A 中总共拥有 224 个计算单元。对于 350,它是专门设计为加速器的,是一个分立加速器,因此我们拥有更大的灵活性。因此,我们决定每个芯片的活动计算单元数量为 2 的幂 – 所以就像你说的,物理单元是 36 个,但我们启用了 32 个。其中四个(每个着色器引擎一个)用于收集数据,我们将其利用起来,以便通过 TSMC-N3 这一前沿技术实现良好的大批量生产。所以我们有一些备用计算单元,最终让我们能够实际启用 32 个计算单元。
这是很好的2的幂次方,如果张量是2的幂次方,那么平铺张量就很容易。所以,你使用的大多数张量,或者说其中很多张量,都是基于2的幂次方的矩阵。这样,你就可以轻松地将它们平铺到计算单元的数量中,并减少可能产生的总尾部效应。因为如果你的计算单元数量不是2的幂次方,那么部分张量可能无法很好地直接映射,所以你可能最终需要在计算单元的子集上进行一些工作。所以我们发现,使用2的幂次方可以带来一些优化。
乔治:虽然新的计算单元位于 N3P 上,但 I/O 芯片位于 N6 上;为什么坚持使用 N6?
Alan:是的,这个问题问得好。首先,就我们的 Chiplet 技术而言,我们有选择权,对吧?因此,采用 Chiplet 技术可以灵活地选择不同的技术(如果适用)。而 I/O 芯片中的技术往往无法很好地扩展,无法与先进技术兼容。例如,HBM5、高速 certis、Infinity Cache 和 SRAM 等,这些技术的扩展性都不太好。因此,坚持使用在大尺寸芯片上产量成熟的老技术,使我们能够为客户提供符合产品成本和 TCO(总体拥有成本)的价值主张。然后,我们能够利用 N3P 等最先进的技术进行计算,从而在计算单元的功耗和面积扩展方面获得显著优势。
乔治:说到 LDS,让我感兴趣的是,除了 LDS 之外,缓存层级结构没有任何变化。这是为什么呢?
Alan:是的,这个问题问得好。如果您还记得我刚才说过,MI300 旨在提供高性能计算 (HPC) 的最高性能。为了实现这一目标,我们需要为双精度浮点计算单元提供充足的全局带宽。因此,我们已经设计了 Infinity Fabric 和 XCC(加速计算核心)中的结构,以提供足够的带宽来支持 MI300 中真正高的双精度矩阵运算以及与之相关的所有缓存层次结构。因此,我们能够利用 MI300 中已内置的大量互连功能,无需对其进行任何修改。
乔治: MI350 之后,你们从四个底模变成了两个底模。这对你们顶模的布局有什么影响?
Alan:是的,正如您所说,MI350 的 I/O 芯片只有两个,每个芯片都支持四个加速器芯片。而 MI300 有四个 I/O 芯片,每个芯片都支持两个加速器芯片。所以这就是您所说的。
因此,我们所做的是,我们希望提高全局带宽,也就是 HBM 的带宽,MI300 是为 HBM3 设计的,而 MI350 则是专为 HBM3E 设计的。因此,我们希望将带宽从每秒 5.2 或 5.6 千兆位提升到每秒 8 千兆位。但我们也希望以尽可能低的功耗实现这一目标,因为以最低的每比特能耗将字节从 HBM 传输到计算核心,可以在 GPU 功耗固定的情况下提供更高的功率,从而同时为计算提供更多功率。因此,对于包含计算单元的带宽受限内核,通过减少数据传输功耗,我们可以将更多功率投入到计算中,从而为这些内核提供更高的性能。
因此,我们将两块芯片合二为一,这样就能加宽芯片内的总线;这样我们就能在每个时钟周期传输更多字节,从而以更低的频率和更低的电压运行它们,这使得电压与传输这些字节所需的功率成正比。这就是我们这样做的原因。
George:说到功率,MI350x 的功率为 1000 瓦,MI355x 的功率为 1400 瓦。考虑到功率增加 40%,除了系统散热之外,还需要考虑哪些不同的散热因素?这些因素是否会影响单个芯片的散热性能?
艾伦:问得好,显然我们也需要考虑我们的 3D 架构的一些事情。
因此,当我们设计这些芯片的总体功率和热架构时,我们会从主板一直考虑到子板,也就是UBB(通用基板),在本例中是OAM(OCP加速器模块),然后向上到CoWoS(晶圆基板芯片)堆栈、位于中间层的I/O芯片,以及位于这些芯片之上的计算单元。因此,我们会考虑整个堆栈的总热密度,以及堆栈内的热传输量或热阻,以及为了散热而在其上构建所需的热界面材料,对吗?
因此,我们为 MI350 系列提供两种不同类型的散热解决方案。一种是风冷,正如您提到的。另一种是直连式液冷。这样,液冷板中的液冷外壳就会直接连接到芯片顶部的导热界面材料上。因此,我们对整个堆栈进行了热建模,并与所有技术合作伙伴直接合作,以确保整个热堆栈能够处理我们构建在芯片中的功率密度。
乔治:太棒了,由于时间紧迫,这次采访最重要的问题是,你最喜欢哪种奶酪?
艾伦:哦,切达干酪。
乔治:非常同意。你最喜欢哪个牌子的切达干酪?
艾伦:我喜欢佛蒙特的。那是什么?哦……卡尔伯特的?我想不起来了。[编者注:艾伦最喜欢的是卡伯特切达奶酪]
乔治:我个人最喜欢的可能是蒂拉穆克,没错,它来自俄勒冈州。不过,艾伦,非常感谢你接受这次采访。
如果您想支持这个频道,请点赞和订阅。如果您喜欢这样的采访,请在下方评论区告诉我们。此外,Chips and Cheese 网站上也会有文字记录。如果您想直接为 Chips and Cheese 提供资金支持,可以通过 Patreon、Substack 上的 Stripe 和 PayPal 进行捐赠。艾伦,非常感谢你接受这次采访。
艾伦:谢谢,我很荣幸。
乔治:大家玩得开心!
原文: https://chipsandcheese.com/p/amds-freshly-baked-mi350-an-interview