在 Google Cloud,我们与各行各业的企业合作,我们见证了几乎所有企业在其在线流量猛增时都经历过的高峰事件。对于零售商来说,他们的高峰活动是黑色星期五和网络星期一(或 BFCM 简称”黑五”)——在美国感恩节之后,假日购物开始的周期。周末是 11 月和 12 月最重要的假日购物季的开始,估计占全年零售额的 20%。

在黑五期间,零售商的购物应用程序的流量激增至无与伦比的水平,可用性或可扩展性问题可能导致数千万的销售额损失。每年都有知名的零售网站崩溃,因此避免停机以及随之而来的声誉受损、客户不满以及内部IT团队压力大、过度工作等问题零售商来说尤为重要。

我们知道,坚实的技术基础设施是零售商在这个购物高峰季保持领先并取得成功的基础。除此之外,对该基础设施的支持也是必不可少的,支持不只是在出现问题时才被激活。对黑色星期五和网络星期一等活动的支持需要提前做好准备,包括测试、架构评审、容量规划、操作演习和活动期间的作战室。我们对 BFCM 支持采取了规范的方法,尽早(提前六个月以上)设定期望和所有权,以了解每个零售客户的需求,包括他们自己和我们的团队。

我们将帮助我们的零售客户度过一个高效且无压力的高峰季。我们还将特别介绍一个大型零售平台 Shopify 如何使用 Google Cloud 成功度过 BFCM。

时刻准备应对高峰

我们于当年春季开始为我们的零售客户规划黑色星期五和网络星期一的解决方案,以配合他们的准备时间表。我们成立了一个工作组,由来自 Google Cloud 专业服务、客户工程、支持、客户可靠性工程 (CRE) 以及产品和工程团队的代表组成。我们定期开会制定战略、制定策略并执行,目的是确保 Google 团队成员和我们的 GCP 零售客户做好充分准备。

我们专注于几个关键技术领域,在这些领域,规划可以帮助预防很多问题。

1. 早期容量规划

早在当年5月,我们的客户团队就开始对接 GCP 零售客户。我们讨论出了一版高级别规划,例如他们在特定的假日购物目标以及他们可能需要实现这些目标的基础设施容量。

我们与零售商密切合作,审查他们的架构,并在黑色星期五之前预测和规划容量,对需要增加的技术提出建议,因为在规划流量高峰时,可扩展性至关重要。我们对团队和服务进行了测试,并对系统进行了压力测试,以发现所有的限制性因素,并根据需要进行补救。这些量身定制的准备工作得到了全面的回报。由于 GCP 容量状态在整个黑色星期五和网络星期一期间始终保持绿色可用,因此访问我们零售客户网站的购物者可以在购买时不会遇到卡顿或无响应的情况。

2.可靠性测试

在“事前检验”(CRE 的一个重要组成部分)中识别潜在的可靠性问题是我们采取的另一个先发制人的步骤。早期,我们的 CRE 团队与我们的零售客户合作,分析其基础设施的可靠性,并通过桌面练习来了解客户在面对故障时的准备情况。在某些情况下,专业服务团队帮助执行负载测试,以确保零售商的平台能够处理预期的高峰流量水平,而在其他情况下,我们鼓励定期进行负载测试和评估。考虑到移动商务的重要性,我们还测试了客户移动应用程序的性能和可靠性。我们还使用了 Apigee 的 API 监控确保 API 稳定性的工具。我们已经感受到 API 在零售技术中变得越来越重要,因为它们可实现更灵活、基于微服务的电子商务网站。

3.创建作战室

“可能出什么问题了?”

这是在大型 IT 活动之前被问到数千万次的问题。我们与零售客户的 IT 和工程团队一起探索和测试可能出现的最坏情况,例如整个站点崩溃。我们创建了一个中央黑色星期五/网络星期一作战室,配备了资深、经验丰富的 Google 员工,他们来自专业服务、支持和站点可靠性工程 (SRE) 团队。这支急救人员团队使用实时通信保持联系并在出现任何问题时能够立即解决。除了了解客户和供应商的集成并确保提前定义升级路径之外,还需要明确客户对各种渠道的期望。

在黒五期间,我们将支持客户的驻场人员的数量增加了一倍。在某些情况下,我们会在 GCP 零售客户地点派驻客户团队,以根据需要提供帮助。我们会实时对零售客户可能出现的可靠性或延迟问题进行监控,如果需要对某些事情进行分类,作战室团队就会立即采取行动,解决问题并就后续步骤提出建议。谷歌作战室团队还可以直接、公开地接触谷歌工程师和高管以获得额外支持。

零售商如何度过黑色星期五和网络星期一

我们的零售合作伙伴之一 Shopify 是一个电子商务平台,支持超过 600,000 家独立零售商。管理所有这些店面的复杂性使得预测假日网站的流量和销售高峰更具挑战性。Shopify 提供了一个正常运行时间为 99.98% 的平台,并将 BFCM 称为他们一年一度的“世界杯”活动。

Shopify 的平台由许多内部服务和与第三方提供商的交互点组成,例如支付网关和运输公司。这些依赖项中的每一个都必须可靠且性能良好,BFCM 才能顺利运行。

从2018 年开始,Shopify 全面使用 GCP 作为其基础设施提供商,其 100% 的零售商都在我们的平台上运行。

Shopify 是 Docker 容器的早期采用者,现在使用 Google Kubernetes Engine 作为其容器管理系统,以及 Cloud Storage 统一对象存储服务。

在假日购物季前几个月,Shopify 生产工程师就开始与 Google 的 BFCM 团队并肩工作。我们合作进行容量规划,因此 Shopify 将拥有所需的正确容量缓冲区,以适应比前一年更大的峰值负载,并帮助诊断和修复潜在的性能问题,例如网络延迟。

在这一年剩下的时间里,我们的 Shopify 客户团队与 Shopify 工程师在 Slack、Google Hangouts Chat 和其他实时通信工具上保持高度互动。对于黑色星期五和网络星期一,我们进一步加强了沟通,并将 Google 员工派遣到 Shopify 在多伦多的作战室。

2021 年 BFCM 周末打破了 Shopify 的记录,迎来了创纪录的消费者(全球 4700 万),实现了 63 亿美元的全球销售额,同比增长 23%(高于 2020 年的全球销售额 51 亿美元)。美国东部时间 2021 年 11 月 26 日黑色星期五下午 12:02 的峰值销售额超过每分钟 310 万美元。

Shopify 工程副总裁德莱尼·曼德斯 (Delaney Manders) 表示:“只有通过为性能和规模而构建的基础设施,才能在 BFCM 2021 黑五上实现创纪录的销售额。“通过 Shopify 工程部门和 Google Cloud 之间令人叹服的合作,我们的基础设施平均出口流量约为 30TB/分钟(折合平均约 4Tbps 的对公网流量 - 译者注),并帮助我们的商家在销售高峰期为其消费者提供近乎完美的正常运行时间。”

云计划和支持使事件无压力

通过遵循上述策略,您可以为即将到来的压力做好准备,无论是巨大的、意料之外的流量高峰还是您所指望的每年销售额的大幅增长。要实现您自己的低压力高峰活动,请在活动前进行计划和准备。

相关推荐