过去几年,E-Core 一直是英特尔客户端 CPU 战略的核心。它们有助于提升性能密度,使英特尔能够在多线程应用领域与 AMD 竞争。但性能密度不仅仅在客户端领域有用。过去几年,英特尔推出了许多专注于密度的服务器设计,例如 Ampere 的 80 核 Altra 和 192 核 AmpereOne,以及 AMD 的 128 核 Bergamo。英特尔不想被排除在密度优化的服务器领域之外,而他们的 E-Core 正是打入该市场的理想之选。
Clearwater Forest 采用 Skymont E-Core,与英特尔上一代 Sierra Forest 设计中使用的 Crestmont E-Core 相比,其单核性能大幅提升。Skymont 比上一代更宽,并拥有更强的重新排序能力。在客户端设计中,其性能与英特尔的 P-Core 相差无几,因此提供了相当可观的单线程性能。Skymont 核心封装在四核集群中,拥有 4 MB 的 L2 缓存。
包装和物理方面
Skymont 集群随后被封装到基于英特尔 18A 节点制造的计算芯片上,因为 CPU 核心从改进的工艺节点中获益最多。一个计算芯片似乎包含六个 Skymont 集群,即 24 个核心。
英特尔的 18A 节点在密度和功率传输方面进行了多项改进。这些改进将有助于 Skymont 在减少面积和功耗的同时获得更佳性能。虽然英特尔的演示中并未提及,但值得注意的是,英特尔将在 Clearwater Forest 的 18A 节点以及台积电 Arrow Lake 的 3nm 节点上部署 Skymont。这展现了英特尔在工艺节点方面不受限制的能力,这与英特尔老款核心与英特尔节点的紧密结合形成了鲜明对比。
计算芯片采用 3D 堆叠技术,置于英特尔三个基础芯片之上。基础芯片承载着芯片的网状互连和 L3 缓存切片。将 L3 缓存切片放置在单独的基础芯片上,为英特尔提供了实现 8 MB L3 缓存切片所需的芯片面积,从而为芯片提供了 576 MB 的末级缓存。Clearwater Forest 拥有三个基础芯片,它们通过间距为 45 微米的嵌入式硅桥相互连接。如果我没听错的话,计算芯片与基础芯片的连接间距为 9 微米,密度更高。
英特尔的网格可以被认为是一个双向(垂直和水平)的环。Clearwater Forest 的网格在垂直方向上横跨基片边界,从芯片顶部一直延伸到底部。基片的边缘也承载着内存控制器,缓存切片与水平方向上最近的内存控制器相关联。我认为这意味着每个缓存切片拥有的物理地址空间对应于最近的内存控制器所覆盖的范围。这应该会降低内存延迟,并使芯片更容易划分成 NUMA 节点。
每个基础芯片承载四个计算芯片,即 96 个 Skymont 核心。Clearwater Forest 的三个基础芯片总共拥有 288 个核心,是 Sierra Forest 144 个核心的两倍。
IO 芯片位于芯片的顶部和底部,并使用英特尔 7 代工艺,因为 IO 接口无法很好地随着工艺节点的改进而扩展。英特尔重复使用了 Sierra Forest 的 IO 芯片。这与 AMD 跨代重复使用 IO 芯片的做法颇有相似之处,这简化了物流并节省了开发成本。
互连和内存子系统
Skymont 的内存层级结构基本上包含两个互连层:一个位于集群内部,另一个连接整个系统。在集群内部,每个 Skymont 核心的 L2 带宽与 Crestmont 相同,但总 L2 带宽有所提升。根据之前的测量结果,每个核心的 L2 带宽为 64B/周期,总 L2 带宽为 256B/周期。而上一代 Crestmont 集群内部的 L2 带宽为 128B/周期。
Skymont 集群可以承受 128 次 L2 未命中,从而导致系统级互连丢失。获取更多未命中对于隐藏内存子系统延迟和实现高带宽至关重要。英特尔指出,Clearwater Forest 的 Skymont 集群具有 35 GB/s 的结构带宽。我怀疑这是一个延迟限制测量值,而不是代表网格接口宽度的数值。在英特尔的 Arrow Lake 桌面平台上,4c Skymont 集群可以实现近 60 GB/s 的 L3 读取带宽。这暗示着 L3 延迟较高,并且网格时钟可能较低。在这两种情况下,Skymont 的大型 4 MB L2 在使流量需求远离较慢的 L3 方面发挥着至关重要的作用。在服务器设置中,实现高 L2 命中率可能更为关键。
尽管 L3 延迟可能较高且带宽一般,但 Clearwater Forest 高达 576 MB 的 L3 容量或许能带来显著的命中率优势。AMD 的 VCache 部件仅有 96 MB 的 L3 缓存,而且一个集群中的核心无法分配到另一个集群的 L3 缓存中。英特尔使用 DDR5-8000 时,DRAM 读取带宽约为 1.3 TB/s,对于服务器配置而言,这已经是相当快的 DDR5 了。
在双插槽设置中,UPI 链路提供 576 GB/s 的跨插槽带宽。与我在其他双插槽设置中测得的读取带宽相比,这相当高。测试 Clearwater Forest 系统,看看实现这一带宽有多容易,这肯定很有趣。
英特尔在 Clearwater Forest 中也拥有海量 IO,每块芯片配备 96 条 PCIe Gen 5 通道。其中 64 条通道支持 CXL。总 IO 带宽达到 1 TB/s。
最后的话
Skymont 是一款强大的小核心。如果它的性能接近桌面处理器的性能,那么英特尔应该能够与 AMD 以及最新的 Arm 服务器芯片竞争。当然,核心性能很大程度上取决于内存子系统的性能。L3 和 DRAM 延迟目前仍是未知数,但我怀疑 Clearwater Forest 在 L2 命中率非常高的情况下会表现最佳。
英特尔方面指出,20 个 Clearwater Forest 服务器机架可以提供相当于 70 个机架的性能,这很可能是使用英特尔采用 P-Cores 的旧款服务器芯片。英特尔在那里使用了 SPEC CPU2017 的整数速率基准测试,该测试运行了同一测试的多个副本,因此可以很好地随核心数量扩展。
在实际产品投入部署并接受测试之前,评估 Clearwater Forest 的性能是不可能的。但初步迹象表明,英特尔的 P-Core 团队有很多值得骄傲的地方。在过去十年中,他们的性能已经从与 P-Core 截然不同,到如今已非常接近 P-Core 的性能。凭借 Clearwater Forest 和 Arrow Lake 等产品,E-Core(之前的 Atom)现已在要求极高的服务器和客户端桌面领域站稳脚跟。Clearwater Forest 的表现以及英特尔 E-Core 未来的发展方向都值得关注。
如果你喜欢这些内容,可以考虑去Patreon或PayPal给 Chips and Cheese 打个广告。也可以考虑加入Discord 。
原文: https://chipsandcheese.com/p/intels-clearwater-forest-e-core-server