Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Nvidia 的 Blackwell 征服了最大的 LLM 培训基准

Posted on 2025-06-05

两座带有 Nvidia 标签的黑塔

对于那些喜欢支持弱者的人来说,最新的 MLPerf 基准测试结果可能会令人失望:Nvidia 的 GPU仍然占据主导地位 再次。这包括在最新、最苛刻的基准测试中,对 Llama 3.1 403B 大型语言模型进行预训练时,所取得的顶级性能。即便如此,基于最新 AMD GPU MI325X 构建的计算机在最流行的 LLM 微调基准测试中,其性能与Blackwell 的前代产品 Nvidia H200 相当。这表明 AMD 落后了 Nvidia 一代。

MLPerf训练是MLCommons联盟举办的机器学习竞赛之一。“AI 性能有时就像狂野西部。MLPerf 致力于打破这种混乱,”Nvidia 加速计算产品总监Dave Salvator表示。“这并非易事。”

本次比赛包含六个基准测试,每个基准测试分别针对一个与行业相关的机器学习任务。这些基准测试包括内容推荐、大型语言模型预训练、大型语言模型微调、机器视觉应用的目标检测、图像生成以及用于欺诈检测和药物研发等应用的图节点分类。

大型语言模型预训练任务是最耗费资源的,而本轮更新后更是资源密集。“预训练”一词可能有点误导——它可能会让人觉得预训练之后是一个名为“训练”的阶段。但事实并非如此。预训练是大部分数字运算发生的地方,接下来通常是微调,用于针对特定任务改进模型。

在之前的迭代中,预训练是在 GPT3 模型上进行的。本次迭代中,它被 Meta 的 Llama 3.1 403B 所取代,其大小是 GPT3 的两倍多,并使用了四倍大的上下文窗口。上下文窗口指的是模型一次可以处理的输入文本量。这个更大的基准测试代表了业界对更大模型的趋势,同时也包含了一些架构更新。

Blackwell 位居榜首,AMD 紧随其后

在所有六项基准测试中,最快的训练时间来自 Nvidia 的 Blackwell GPU。Nvidia 自己提交了所有基准测试(其他公司也使用基于 Nvidia GPU 构建的各种计算机提交了测试)。Nvidia 的 Salvator 强调,这是 Blackwell GPU 的首次大规模部署,而且性能只会不断提升。“我们仍处于 Blackwell 开发生命周期的早期阶段,”他说道。

这是 AMD 首次提交训练基准测试,尽管前几年其他公司也曾使用搭载 AMD GPU 的计算机提交测试。在最流行的基准测试 LLM 微调中,AMD 证明其最新的 Instinct MI325X GPU 的性能与 Nvidia 的 H200 相当。此外,Instinct MI325X 的性能比其前代产品Instinct MI300X提升了 30%。(两者的主要区别在于,MI325X 的高带宽内存比 MI300X 多 30%。)

就其本身而言,谷歌利用其Trillium TPU提交了一项单一基准测试,即图像生成任务。

散点可视化

人际网络的重要性

在所有提交给 LLM 微调基准测试的系统中,GPU 数量最多的系统由英伟达提交,这台计算机连接了 512 块 B200 处理器。在这种规模下,GPU 之间的网络连接开始发挥重要作用。理想情况下,添加多个 GPU 可以将训练时间除以 GPU 数量。但实际上,效率总是低于这个数字,因为通信会浪费一些时间。最大限度地减少这种损失是高效训练最大规模模型的关键。

图表可视化

在预训练基准测试中,这一点尤为突出。最小的提交使用了 512 块 GPU,而最大的提交使用了 8,192 块。在这个新的基准测试中,随着 GPU 数量的增加,性能的扩展明显接近线性,达到了理想性能的 90%。

Nvidia 的 Salvator 将此归功于 NVL72,这是一款高效的套件,通过NVLink连接 36 个 Grace CPU 和 72 个 Blackwell GPU,从而形成一个“充当单个大型 GPU”的系统(数据手册中如此描述)。多个 NVL72 随后通过InfiniBand网络技术连接起来。

图表可视化

值得注意的是,尽管预训练基准测试的要求有所提高,但本轮 MLPerf 的最大提交(8192 个 GPU)并非历来最大。前几轮提交的 GPU 数量超过 10,000 个。惠普企业首席 AI 和机器学习工程师Kenneth Leach将 GPU 数量的减少归因于 GPU 的改进以及它们之间的网络连接。“以前,我们需要 16 个服务器节点(来预训练 LLM),但现在我们只需要 4 个。我认为这也是我们没有看到那么多大型系统的原因之一,因为我们实现了高效的扩展。”

避免网络相关损失的一种方法是将多个 AI 加速器集成在同一块巨大的晶圆上,就像Cerebras所做的那样。Cerebras 最近声称,它在推理任务上的表现比Nvidia 的 Blackwell GPU 好两倍以上。然而,该结果是由Artificial Analysis测量的,它查询不同的提供商,但不控制工作负载的执行方式。因此,它不像 MLPerf 基准测试那样进行同类比较。

权力的匮乏

MLPerf 基准测试还包含一项功耗测试,用于测量完成每项训练任务所需的功耗。本轮测试中,只有联想一家提交了功耗测量结果,因此无法对不同厂商的性能进行比较。在两块 Blackwell GPU 上微调 LLM 所需的功耗为 6.11 千兆焦耳,即 1698 千瓦时,大致相当于一间小型房屋冬季供暖所需的能量。随着人们对人工智能能耗的担忧日益加深,训练的能效至关重要,希望更多公司在未来几轮测试中提交此类结果的并非只有笔者一人。

原文: https://spectrum.ieee.org/nvidia-blackwell-mlperf-training-5

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme