罗马不是一天建成的,Google 的网络也不是一天建成的。25 年来,我们已经建立了规模宏大、技术先进的网络基础设施,这一点令人惊叹。
更令人赞叹的是,最初 Google 的网络基础设施相对简单。但随着用户群和对服务的需求呈指数级增长,我们意识到,需要一个能够处理前所未有的大规模数据和流量的网络,并且能够随着我们的工作负载随时间变化而适应动态的流量模式。在长达 25 年的历程中,我们进行了无数次工程创新,并取得了一个又一个里程碑式的成就,最终形成了我们目前的第五代 Jupiter 数据中心网络架构,其对分带宽现已扩展到 13 Pbps。从这一数据传输速率的角度来看,该网络可支持地球上所有 80 亿人的视频通话(1.5 Mb/s带宽)!
如今,我们已在全球部署了数百个 Jupiter 架构,同时支持数百种服务、数十亿日活用户、所有 Google Cloud 客户以及全球一些最大的机器学习训练和服务基础设施。在展望下一代数据中心网络基础设施之际,我想与大家分享更多关于我们旅程的信息。
指导原则
我们的网络发展一直遵循几项重要原则:
随时随地:我们的数据中心网络支持高效、简单的工作,允许将大规模作业放置在同一网络架构中 10 万级服务器中任何位置,并可高速访问所需的存储和支持服务。这种规模可提高内部和外部工作负载的应用性能,并消除内部碎片。
可预测和低延迟:我们通过预留带宽空间、保持 99.999% 的网络可用性,通过终端主机和网络的协同合作来主动管理拥塞,从而优先确保一致的性能并最大限度地减少尾部延迟。
软件定义和以系统为中心:利用软件定义网络(SDN)的灵活性和敏捷性,我们每两周在全球网络中对数十种新功能进行认证,并全球发布。
增量演进和动态拓扑:增量演进有助于我们精细地更新网络(而不是整体关闭网络),动态拓扑则有助于我们不断适应不断变化的工作负载需求。光交换和 SDN 的结合支持就地物理升级和不断发展的异构网络,该网络能够在单一架构中支持多代硬件。
流量工程和以应用为中心的 QoS:优化流量和确保服务质量有助于我们根据每个应用的需求量身定制网络。
整合上述原则是我们工作的基础。网络是所有其他计算服务(从存储到 AI)可靠性的基础。因此,网络必须在故障发生时最后受到冲击,并且故障最少。为了支持这一基本责任,我们严格定义和监控全球网络中数百个集群和数百万个端口出现问题的每一分钟1。我们在可靠性方面取得了长足进步,我们的内部软件定义 Jupiter 网络的可靠性比以前版本的数据中心网络高出 50 倍。
2015 年 – 推出首个 Petabit 级网络 Jupiter
在一篇影响深远的论文中,我们展示了 Jupiter 数据中心网络通过利用商用交换机芯片、Clos 拓扑和软件定义网络(SDN)将总带宽扩展到 1.3Pb/s。这一代 Jupiter 是 Google 网络团队内部开发的五代数据中心网络的巅峰之作。当时,一个 Google 数据中心的数据传输速率超过了全球互联网的估算总 IP 流量数据传输速率。
2022 年 - 实现 6 Pbps 的速度
2022 年,我们宣布我们的 Jupiter 网络已扩展至 6 Pb/s 以上,并深度集成了光交换(OCS)、波分复用(WDM)和高度可扩展的 Orion SDN 控制器。这些技术带来了一系列进步,包括网络增建、性能提升、成本降低、功耗减少、动态流量管理以及无缝升级。
2023 年 - 实现 13 Pbps 网络
我们进一步增强了 Jupiter,以支持网络核心中原生的 400 Gb/s 链路速度。Jupiter 网络的基本构建模块(称为聚合模块)由 512 个端口组成,这些端口与终端主机和数据中心其他部分的连接速度均为 400 Gb/s,每个聚合模块的双向非阻塞带宽总计为204.8 Tb/s。我们支持 64 个这样的模块,总对分带宽为 64*204.8 Tb/s = 13.1 Pb/s。一年多来,这项技术一直在为Google的生产数据中心提供动力,推动了 AI/ML、网络搜索和其他数据密集型应用的快速发展。
2024 年及以后 – AI 时代的极致网络化
在庆祝数据中心网络领域二十多年的创新成果之际,我们已在规划下一代网络基础设施的发展蓝图,以支持 AI 时代的到来。例如,我们的团队正忙于为即将推出的 A3 Ultra 虚拟机构建所需的网络基础设施。这些虚拟机采用 NVIDIA ConnectX-7 网络技术,支持通过 RoCE(融合以太网上的RDMA)和基于 NVIDIA GB200 NVL72 的未来产品,实现每台服务间 3.2 Tbps GPU 到 GPU 无阻塞流量传输。
在接下来的几年里,我们将显著提升网络规模和带宽,无论是每端口容量还是网络规模容量。我们将继续突破终端主机集成的界限,包括传输层和拥塞管理堆栈,并优化网络层级,以实现更低的延迟。实时的拓扑工程、与计算和存储堆栈的深度集成以及基于主机的负载均衡技术的持续改进,将进一步增强网络的可靠性和降低延迟。凭借这些创新,我们的网络将继续成为推动变革性应用和服务的基石,这些应用和服务能够丰富全球用户的生活,同时支持我们内部服务和 Google Cloud 产品所依赖的突破性 AI 技术。
我们很高兴能迎接这些挑战和机遇,见证 Google 网络未来 25 年的发展!
更多资源
Jupiter 崛起:Google 数据中心网络十年的 Clos拓扑和集中控制,SIGCOMM '15 [论文]
○ 首个利用商用交换机硅片、Clos 拓扑和软件定义网络(SDN)的 Jupiter 数据中心网络之旅。
○ 2012 年首次投入生产。
○ 2013 年首次投入生产。
Orion:Google 的软件定义网络控制平面。NSDI '21 [论文]
○ 用于数据中心和广域网的 Google 高性能、可扩展、基于意图的分布式 SDN 平台。
○ 2016 年首次投入生产。
Jupiter 发展:通过光交换机和软件定义网络改造 Google 数据中心网络,SIGCOMM '22 [论文]
○ 使能技术:OCS(2013 年)、Orion SDN(2016 年)、200Gbps 网络(2020 年)、直连拓扑(2017 年)、动态流量工程(2018 年)、动态拓扑工程(2021 年)。
Swift:延迟是数据中心拥塞控制的简单有效方法,SIGCOMM '20 [论文]
○ Swift 是一种使用硬件时间戳和具有延迟目标的 AIMD 控制的拥塞控制协议,它在 Google 数据中心中提供了出色的性能,短时 RPC 的低流完成时间较短,长时 RPC 的吞吐量较高。
○ 2017 年首次投入生产。
PLB:拥塞信号对网络负载均衡简单有效,SIGCOMM '22 [论文]
○ 保护性负载均衡(PLB)是一种简单有效的基于主机的负均衡设计,它通过随机改变拥塞连接的路径来减少网络拥塞并提高性能,并在空闲时段后优先重新选择路径,以尽量减少数据包重新排序。
○ 2020 年首次投入生产
1. 数据中心网络中有相当数量的网络流量出现超过规定阈值的全部或部分中断的任何一分钟。
文章信息
相关推荐
