重新思考人工智能/机器学习时代的网络架构

在 Sutter Hill Ventures 举办的 AI 演讲系列活动中，谷歌杰出工程师 Nandita Dukkipati 阐述了 AI/ML 工作负载如何彻底颠覆了传统网络。以下是我从她的演讲中整理的笔记：

人工智能打破了我们对网络的固有认知。传统网络能够接受一定的延迟波动和偶尔的故障。而人工智能工作负载则要求完美：高带宽、超低抖动（几十微秒）以及近乎完美的可靠性。任何一个运行缓慢的节点都会导致整个训练任务失败。

人工智能的不同之处在于：这类工作负载采用的是批量同步并行计算。所有节点都会在某个节点处等待，直到所有节点完成各自的步骤。速度最慢的节点决定了整体速度。即使 100 个节点中有 99 个节点完成得很快，也不能算是“足够好”。

实际案例：Gemini 流量在达到线速时延迟仅为数百毫秒，但平均利用率却比峰值低 5 倍。同步突发传输，没有统计复用优势。既对延迟敏感，又对带宽要求很高。

三大突破

Falcon（硬件传输）：现有的硬件传输假定网络为无损网络，这与以太网根本不兼容。Falcon 将十年来的软件优化成果提炼到硬件中，实现了 100 倍的性能提升：基于延迟的拥塞控制、智能负载均衡和现代化的丢包恢复。那些在软件层面遇到扩展瓶颈的高性能计算 (HPC) 应用，借助 Falcon 可以立即扩展。

CSIG（拥塞信令）：端到端拥塞控制存在盲点——无法感知反向路径拥塞或可用带宽。CSIG 以线速在每个数据包中提供多比特信号（可用带宽、路径延迟）。无需探测。其核心优势在于：提供应用上下文信息，让您能够准确了解哪些路径拥塞。

萤火虫：抖动扼杀人工智能工作负载。萤火虫利用分布式共识机制，在数百个网卡上实现了低于 10 纳秒的同步。实际测量结果：示波器显示误差仅为 ±5 纳秒。它将松散连接的机器转变为紧密耦合的计算系统。

剩余的挑战

检测慢速 GPU：即使网络环境完美，在数千个 GPU 中找到速度慢的单个 GPU 仍然是最棘手的问题。整个工作负载都会减慢，几乎不可能确定罪魁祸首。统计异常值分析过于复杂。目前正在积极研究中。

总而言之：AI 网络需要同时提供传输、可见性、同步和弹性方面的解决方案。在 AI 应用具备更强的容错能力之前（短期内不太可能实现），基础设施必须近乎完美。我们正在从被动的尽力而为型网络转向完美调度的网络，从软件传输转向硬件传输，从手动调试转向自动化弹性。

原文： https://www.lukew.com/ff/entry.asp?2134