Forrester Research 在由 Mike Gualtieri 和 Tracy Woo 撰写的 Forrester Wave™:AI 基础设施,2021 年第四季度报告中将 Google Cloud 评为领导者。在该报告中,Forrester 根据一组预定义的标准评估了 AI 架构、训练、推理和管理的维度。Forrester 的分析和认可让客户有信心做出能够产生持久业务影响的重要平台选择。
Google 在 Forrester Wave 的 16 项评估标准中获得最高分,包括架构设计、架构组件、训练软件、训练数据、训练吞吐量、训练延迟、推理吞吐量、推理延迟、管理操作、外部管理、部署效率、执行路线图、创新 路线图、合作伙伴生态系统、商业模式和客户数量。
我们相信,Google 的愿景是成为端到端数据科学体验的统一数据和 AI 解决方案提供商,Forrester 在架构和创新领域的高分认可了这一愿景。 我们专注于打造最强大但最有凝聚力的体验,让我们的客户在每一步都能充分利用 Google 的优势。 以下是Google 擅长的四个关键领域,也是本报告中强调的众多领域的一部分。
AI 基础设施:发挥创新的基石
当组织选择在 Google Cloud 上开展业务时,它会受益于全球可用的创新基础架构。 Google 为用户提供了一组丰富的构建块,例如深度学习 VM 和容器、最新的 GPU/TPU 和精选的 ISV 产品市场,以帮助您在 VM 和/或 Google Kubernetes Engine (GKE) 上构建自己的自定义软件堆栈。
Google 针对各种用例提供了一系列 GPU 和 TPU 加速器,包括高性能训练、低成本推理和大规模加速数据处理。 Google 是唯一一家在单个 VM 中提供多达 16 个 NVIDIA A100 GPU 的公有云提供商,这使得在单个节点上训练非常大的 AI 模型成为可能。 用户可以从一个 NVIDIA A100 GPU 开始并扩展到 16 个 GPU,而无需为单节点 ML 训练配置多个 VM。 Google 还为使用 PyTorch、TensorFlow 和 JAX 做大规模 AI 研究者提供 TPU pod。 新的第四代 TPU pod 提供了 exaflop 级别的峰值性能,在最近的 MLPerf 基准测试中取得了领先的结果,其中包括 4800 亿参数的语言模型。
Google Kubernetes Engine 提供最先进的 Kubernetes 服务,具有 Autopilot、高度自动化的集群版本升级和集群备份/恢复等独特功能。 GKE 是用于训练、推理和 Kubeflow 流水线的可扩展多节点定制平台的良好选择,因为它支持每个集群 15,000 个节点、自动配置、自动扩展和各种机器类型(例如 CPU、GPU、TPU以及按需、抢占)。 ML 工作负载还受益于 GKE 对动态调度、协调维护、高可用性、作业 API、可定制性、容错和 ML 框架的支持。 当公司的足迹增长到 GKE 集群编队时,其数据团队可以利用 Anthos Config Management 来强制执行一致的配置与安全策略的合规性。
全面的 MLOps:更快、更轻松地构建模型,而不会吝啬治理
Google 完全托管的 Vertex AI 平台为 ML 生命周期管理提供服务,从数据摄取和准备一直到模型的部署、监控和管理。与竞争平台相比,Vertex AI 训练模型所需的代码行数减少了近 80%1,使各个专业水平的数据科学家和 ML 工程师能够实施 ML 操作 (MLOps),从而在整个开发过程中高效地构建和管理 ML 项目的生命周期。
Vertex AI Workbench 为数据科学家提供了用于数据到 ML 整个工作流程的单一环境,使数据科学家能够以比传统笔记本快 5 倍的速度构建和训练模型。 这是通过跨数据服务(如 Dataproc、BigQuery、Dataplex 和 Looker)的集成实现的,这能够显着减少上下文的切换。用户还可以访问 NVIDIA GPU、即时修改硬件并设置空闲关机以实现基础设施成本的优化。
接下来,组织可以使用 Vertex AI 构建和部署基于任何框架(包括 TensorFlow、PyTorch、Scikit learn 或 XGBoost)的模型,并使用内置工具来跟踪模型的性能。 Vertex Training 还提供各种开发大型模型的方法,包括 Reduction Server可以优化 NVIDIA GPU 上多节点分布式训练的带宽和延迟,实现同步数据并行算法。 Vertex AI Prediction 是无服务器的,并在后台执行节点的自动部署和回收,以提供低延迟的在线预测。 它还提供了在端点后面的多个模型之间拆分流量的能力。 在 Vertex AI 中训练的模型也可以导出以部署在私有云或其他公有云中。
Google 在其当前产品中的优势在于架构、训练、数据吞吐和延迟。 通过将这些优势整合到 Vertex AI 产品中,使其可提供用于端到端 AI 生命周期管理的核心 AI 计算能力和 MLOps 服务。
—— Forrester Wave:™ AI 基础设施,2021 年第四季度
除了构建模型之外,部署用于治理、安全性和可审计性的工具也很重要。 这些工具对于受监管行业的合规性至关重要,它们可以帮助团队保护数据,了解给定模型失败的原因,并确定如何改进模型。
针对编排与可审计性,Vertex Pipelines 和 Vertex ML Metadata 跟踪 ML 流水线的输入和输出以及结果的沿袭。 一旦模型投入生产,Vertex AI Model Monitoring 支持特征偏差和漂移的检测,并对数据科学家做出提醒。 这些功能可以加快调试速度,并创建了合规性和良好数据清洁度所需的可见性。对于可解释性,Vertex Explainable AI 帮助团队了解其模型在分类和回归任务中的输出。 Vertex AI 能够告诉我们数据中的每个特征对预测结果的贡献程度。 之后,数据团队可以使用此信息来验证模型是否按预期运行,识别模型中的偏差,并获得改进模型和训练数据方法的想法。
这些服务共同旨在为数据科学家和 ML 工程师简化 MLOps,以便企业可以加快 ML 计划的价值实现时间。
安全性:在保持 ML 流水线畅通的同时保护数据
Google 堆栈通过提供深度防御的渐进层来构建安全性。为了完成数据保护、身份验证、授权和不可否认性,我们提供了引导级签名和信任链验证等措施。
无处不在的数据加密提供对静态、使用中和传输中的数据的统一控制,密钥由客户自己持有。
我们提供了在完全加密的机密环境中运行的选项,这些环境在带有机密 Dataproc 或机密 VM 之上使用托管的 Hadoop 或 Spark。
合作伙伴生态系统:与世界一流的 AI 专家合作
Google 与全球的认证合作伙伴合作,帮助我们的客户设计、实施和管理复杂的 AI 系统。在 Google ,我们拥有越来越多的具有 ML 专业知识的合作伙伴,这些合作伙伴已经实现了跨行业的客户成功,包括与最大的全球系统集成商的深度合作。 Google Cloud Marketplace 还提供了允许企业在 Google 的 AI 基础架构上部署 ML 应用程序的技术合作伙伴列表。
我们致力于成为您满足 ML 需求的首选合作伙伴
OTOY、艾伦 AI 研究所和 DeepMind(Alphabet 的子公司)等领先组织选择 Google 进行 ML,而 Twitter、Wayfair 和The Home Depot 等企业在最近的 Google Next 2021 会议上分享了更多关于他们与 Gogle 合作的信息。
一直以来,建立经过良好调整和适当管理的 ML 系统都是具有挑战性的,即使对于拥有复杂系统的高技能数据科学家来说也是如此。借助上述 Google 投资的关键支柱,组织可以在统一的 AI 平台内使用预训练和自定义工具更快地构建、部署和扩展 ML 模型。
我们期待继续创新并帮助客户进行数字化转型之旅。要下载完整的报告,请点击此处。
文章信息
相关推荐
