在 Sutter Hill Ventures 举办的 AI 演讲系列活动中,谷歌杰出工程师 Nandita Dukkipati 阐述了 AI/ML 工作负载如何彻底颠覆了传统网络。以下是我从她的演讲中整理的笔记:
人工智能打破了我们对网络的固有认知。传统网络能够接受一定的延迟波动和偶尔的故障。而人工智能工作负载则要求完美:高带宽、超低抖动(几十微秒)以及近乎完美的可靠性。任何一个运行缓慢的节点都会导致整个训练任务失败。
人工智能的不同之处在于:这类工作负载采用的是批量同步并行计算。所有节点都会在某个节点处等待,直到所有节点完成各自的步骤。速度最慢的节点决定了整体速度。即使 100 个节点中有 99 个节点完成得很快,也不能算是“足够好”。
实际案例:Gemini 流量在达到线速时延迟仅为数百毫秒,但平均利用率却比峰值低 5 倍。同步突发传输,没有统计复用优势。既对延迟敏感,又对带宽要求很高。
三大突破
Falcon(硬件传输):现有的硬件传输假定网络为无损网络,这与以太网根本不兼容。Falcon 将十年来的软件优化成果提炼到硬件中,实现了 100 倍的性能提升:基于延迟的拥塞控制、智能负载均衡和现代化的丢包恢复。那些在软件层面遇到扩展瓶颈的高性能计算 (HPC) 应用,借助 Falcon 可以立即扩展。
CSIG(拥塞信令):端到端拥塞控制存在盲点——无法感知反向路径拥塞或可用带宽。CSIG 以线速在每个数据包中提供多比特信号(可用带宽、路径延迟)。无需探测。其核心优势在于:提供应用上下文信息,让您能够准确了解哪些路径拥塞。
萤火虫:抖动扼杀人工智能工作负载。萤火虫利用分布式共识机制,在数百个网卡上实现了低于 10 纳秒的同步。实际测量结果:示波器显示误差仅为 ±5 纳秒。它将松散连接的机器转变为紧密耦合的计算系统。
剩余的挑战
检测慢速 GPU:即使网络环境完美,在数千个 GPU 中找到速度慢的单个 GPU 仍然是最棘手的问题。整个工作负载都会减慢,几乎不可能确定罪魁祸首。统计异常值分析过于复杂。目前正在积极研究中。
总而言之:AI 网络需要同时提供传输、可见性、同步和弹性方面的解决方案。在 AI 应用具备更强的容错能力之前(短期内不太可能实现),基础设施必须近乎完美。我们正在从被动的尽力而为型网络转向完美调度的网络,从软件传输转向硬件传输,从手动调试转向自动化弹性。
