阿里云近期宣布了一项重大技术创新,展示了其为大型语言模型(LLM)训练设计的数据中心网络架构,该架构基于以太网技术,已在生产环境中稳定运行长达8个月,标志着AI基础设施领域的一大突破。这一设计旨在优化数据传输效率,解决传统网络在处理大规模AI模型训练时面临的诸多挑战,特别是针对突发流量处理和网络负载均衡的问题。
阿里云的高级工程师及网络研究科学家翟恩南通过GitHub公布了题为《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究论文,该论文将在8月举办的SIGCOMM会议上发表。(SIGCOMM是计算机协会数据通信特别兴趣小组的年度聚会)
论文揭示,传统云计算流量通常涉及数百万个小规模流(小于10Gbps),而LLM训练则会在每个主机上产生周期性的突发流,流量高达400Gbps。这种特性导致了等价多路径路由(ECMP)技术中常见的哈希极化问题,影响了负载均衡和带宽的有效利用。
因此,阿里云自主研发了“高性能网络”(HPN),通过减少ECMP的使用,有效避免了哈希极化,同时精确选择网络路径以适应大规模流量需求。
考虑到GPU在LLM训练时需要高度同步工作,阿里云的网络设计特别考虑到了单点故障问题,使用了一款51.2 Tb/sec的以太网单芯片ToR(Top of Rack,ToR)交换机。每个用于训练的主机配备了8个GPU和9个网络接口卡(NIC),其中每个NIC有两个200GB/s的端口,确保了即使在单个交换机故障的情况下也能维持通信。
通过“轨道”设计,每个NIC对应一个GPU,实现了每个加速器享有400Gb/s的RDMA网络吞吐量,整体带宽达到了3.2Tb/s,最大化了GPU的PCIe Gen5 x16接口潜力。
有媒体认为,阿里云选择以太网是为了避免过度依赖特定供应商,并利用整个以太网联盟的力量实现更快的发展。这一决策与越来越多厂商开始支持以太网,逃离英伟达(NVIDIA)NVlink在云端AI互联上的垄断趋势相吻合。
尽管放弃了用于主机间通信的NVlink,阿里云仍然在主机内网络中使用了Nvidia的专有技术,因为主机内GPU之间的通信需要更大的带宽。然而,由于通道之间的通信速度较慢,每个主机提供的“专用400 Gbps RDMA网络吞吐量,总带宽达到3.2 Tbps”,足以最大化PCIe Gen5x16显卡的带宽。
阿里云选择以太网作为基础,还因为以太网联盟的支持和开放标准的长期优势。这一决策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨头的广泛欢迎,这些公司正通过Ultra Accelerator Link联盟等倡议,共同推动开放标准网络技术的发展,以期对抗NVIDIA在AI网络领域的主导地位。
阿里云的数据中心采用“Pod”模式,每个Pod可容纳15,000个GPU,与HPN结合,完美匹配了18MW建筑的功率限制。光纤长度的优化设计允许使用成本更低的多模光收发器。尽管HPN的引入增加了布线复杂度,但阿里云已经在探索更高效的设计,如下一代网络架构,预计将配备更高容量的单芯片交换机。
此外,阿里云在数据中心还采用了51.2Tb/s的以太网单芯片交换机,显著提升了网络吞吐量和稳定性,同时降低了能耗。然而,单芯片交换机在运行过程中面临高温难题,市场上缺乏有效散热解决方案。
为此,阿里云自主研发了以更多支柱为中心的均热板散热器,通过优化结构设计,有效控制了芯片温度,确保了交换机的稳定运行。
然而,HPN仍存在一些缺点,最大的缺点是其复杂的布线结构。每个主机有九个NIC,每个NIC连接到两个不同的ToR交换机,这增加了插孔和端口混淆的可能性。尽管如此,这项技术据称比NVlink更经济,从而使任何建立数据中心的机构都能在设置成本上节省大量资金(甚至可能使其避免使用Nvidia技术,特别是在中美芯片战中受到制裁的公司)。
来源:电子工程专辑