Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

重新思考人工智能/机器学习时代的网络架构

Posted on 2025-11-01

在 Sutter Hill Ventures 举办的 AI 演讲系列活动中,谷歌杰出工程师 Nandita Dukkipati 阐述了 AI/ML 工作负载如何彻底颠覆了传统网络。以下是我从她的演讲中整理的笔记:

人工智能打破了我们对网络的固有认知。传统网络能够接受一定的延迟波动和偶尔的故障。而人工智能工作负载则要求完美:高带宽、超低抖动(几十微秒)以及近乎完美的可靠性。任何一个运行缓慢的节点都会导致整个训练任务失败。

在 Sutter Hill Ventures 举办的 AI 演讲系列活动中,Nandita Dukkipati 发表了演讲。

人工智能的不同之处在于:这类工作负载采用的是批量同步并行计算。所有节点都会在某个节点处等待,直到所有节点完成各自的步骤。速度最慢的节点决定了整体速度。即使 100 个节点中有 99 个节点完成得很快,也不能算是“足够好”。

实际案例:Gemini 流量在达到线速时延迟仅为数百毫秒,但平均利用率却比峰值低 5 倍。同步突发传输,没有统计复用优势。既对延迟敏感,又对带宽要求很高。

三大突破

Falcon(硬件传输):现有的硬件传输假定网络为无损网络,这与以太网根本不兼容。Falcon 将十年来的软件优化成果提炼到硬件中,实现了 100 倍的性能提升:基于延迟的拥塞控制、智能负载均衡和现代化的丢包恢复。那些在软件层面遇到扩展瓶颈的高性能计算 (HPC) 应用,借助 Falcon 可以立即扩展。

CSIG(拥塞信令):端到端拥塞控制存在盲点——无法感知反向路径拥塞或可用带宽。CSIG 以线速在每个数据包中提供多比特信号(可用带宽、路径延迟)。无需探测。其核心优势在于:提供应用上下文信息,让您能够准确了解哪些路径拥塞。

萤火虫:抖动扼杀人工智能工作负载。萤火虫利用分布式共识机制,在数百个网卡上实现了低于 10 纳秒的同步。实际测量结果:示波器显示误差仅为 ±5 纳秒。它将松散连接的机器转变为紧密耦合的计算系统。

剩余的挑战

检测慢速 GPU:即使网络环境完美,在数千个 GPU 中找到速度慢的单个 GPU 仍然是最棘手的问题。整个工作负载都会减慢,几乎不可能确定罪魁祸首。统计异常值分析过于复杂。目前正在积极研究中。

总而言之:AI 网络需要同时提供传输、可见性、同步和弹性方面的解决方案。在 AI 应用具备更强的容错能力之前(短期内不太可能实现),基础设施必须近乎完美。我们正在从被动的尽力而为型网络转向完美调度的网络,从软件传输转向硬件传输,从手动调试转向自动化弹性。

原文: https://www.lukew.com/ff/entry.asp?2134

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme