生成式 AI 正在改变着我们与技术互动的方式,同时有机会为业务影响带来极大的效率提升。但这些进步需要更大的算力、内存和通信能力才能训练和微调最强大的模型,并以交互方式为全球用户群提供服务。十多年来,Google 一直在开发定制化的 AI 专用硬件张量处理单元(TPU),以推动 AI 规模与效率的发展。
我们在 Google I/O 上宣布的多项创新都由 TPU 提供支持,包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新模型;这些模型都经过 TPU 训练并提供服务。为了提供下一代前沿模型并让您也能加入创新行列,我们很高兴推出第六代 TPU Trillium,它是迄今为止性能最强、能效最高的 TPU。
与 TPU v5e 相比,Trillium TPU 的单芯片峰值计算性能提高了 4.7 倍,这是相当惊人的表现。我们将高带宽内存(HBM)容量和带宽增加了一倍,并将 TPU v5e 的芯片间互连(ICI)带宽增加了一倍。此外,Trillium 还配备了第三代 SparseCore,这是一款专门针对处理先进高级排名和推荐工作负载中常见的专用加速器。Trillium TPU 可以更快地训练下一代基础模型,并以更短的延迟和更低的成本为这些模型提供服务。至关重要的是,我们的第六代 TPU 也是迄今为止最具可持续性的:与 TPU v5e 相比,Trillium TPU 的能源效率高出 67% 以上。
Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,Trillium TPU 借助多切片技术和 Titanium 智能处理单元(IPU),还可以扩展到数百个 Pod,从而在楼宇级超级计算机中连接数万个芯片,这些芯片通过每秒数 PB 的数据中心网络互连。
与 Trillium 一起迈入 AI 创新的下一个阶段
十多年前,Google 就认识到需要一款专用于 ML 的芯片。2013 年,我们开始开发世界上第一个专用 AI 加速器 TPU v1,随后于 2017 年推出了第一个 Cloud TPU。如果没有 TPU,Google 的许多最受欢迎的服务,例如实时语音搜索、照片对象识别、交互式语言翻译以及 Gemini、Imagen 和 Gemma 等最先进的基础模型都是不可能实现的。事实上,TPU 的规模和效率为 Google Research 的 Transformers 基础工作奠定了基础,而 Transformers 是现代生成式 AI 的算法基础。
每个 Trillium 芯片的计算性能提高 4.7 倍
TPU 是专为神经网络而设计的,我们始终致力于改善 AI 工作负载的训练与推理速度。与 TPU v5e 相比,Trillium 每芯片的峰值计算量提高了 4.7 倍。为了达到这种性能水平,我们扩大了矩阵乘法单元(MXU)的大小并提高了时钟速度。此外,SparseCore 通过战略性地卸载来自 TensorCore 的随机访问和细粒度访问来加速嵌入密集型工作负载。
2 倍 ICI 和高带宽内存 (HBM) 容量和带宽
HBM 容量和带宽增加一倍后,使 Trillium 能够处理具有更多权重和更大键值缓存的模型。新一代 HBM 可实现更高的内存带宽、更高的能效和灵活的通道架构,从而提高内存吞吐量。这改善了大型模型的训练时间和推理延迟。也就是说,模型权重和键值缓存翻了一番,访问速度更快,计算容量更大,可加速 ML 工作负载。同样地,ICI 带宽加倍使训练和推理作业能够扩展到数万个芯片,这得益于定制光学 ICI 互连与 Pod 中 256 个芯片的战略组合以及 Google Jupiter Networking(将可扩展性扩展到集群中的数百个 Pod)。
Trillium 将为下一代 AI 模型提供支持
Trillium TPU 将为下一代 AI 模型和 agents 提供支持,我们期待利用这些先进的功能来帮助我们的客户。例如,自动驾驶汽车公司 Essential AI 的使命是加深人类与计算机之间的合作关系,并期待使用 Trillium 重塑企业运营方式。Nuro 致力于通过使用 Cloud TPU 训练模型来创造更美好的机器人日常生活;Deep Genomics 正在利用 AI 推动药物发现的未来,并期待由 Trillium 提供支持的下一代基础模型将如何改变患者的生活;Google Cloud 年度 AI 合作伙伴德勤将提供 Trillium,通过生成式 AI 实现业务转型。对 Trillium TPU 上长上下文、多模态模型的训练和服务的支持也将使 Google DeepMind 能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。
Trillium 和 AI Hypercomputer
Trillium TPU 是 Google Cloud AI Hypercomputer 的一部分,这是一种专为尖端 AI 工作负载而设计的突破性超级计算架构。它集成了性能优化的基础设施(包括 Trillium TPU)、开源软件框架和灵活的消耗模式。我们支持 JAX、PyTorch/XLA 和 Keras 3 等开源库,赋予开发人员更多能力。对 JAX 和 XLA 的支持意味着为任何上一代 TPU 编写的声明性模型描述可以直接映射到 Trillium TPU 的新硬件和网络功能。我们还与 Hugging Face 在 Optimum-TPU 上合作,以简化模型训练和服务。
“我们与 Google Cloud 的合作使 Hugging Face 用户可以更轻松地在 Google Cloud 的 AI 基础设施(包括 TPU)上微调并运行开放模型。我们很高兴能够通过即将推出的第六代 Trillium TPU 进一步加速开源 AI,并且我们预计开放模型将继续提供最佳性能,因为与上一代相比,每个芯片的性能提高了 4.7 倍。我们将通过我们新的 Optimum-TPU 库,让所有 AI 构建者轻松获得 Trillium 的性能!”
- Hugging Face 产品主管,Jeff Boudier
SADA (Insight 旗下公司)自 2017 年以来每年都被评为年度合作伙伴,并提供 Google Cloud 服务以发挥最大化的影响力。
作为值得骄傲的 Google Cloud Premier 合作伙伴,SADA 与全球知名的 AI 先驱有着 20 年的悠久合作历史。我们正在为数千个不同的客户快速集成 AI。凭借我们丰富的经验和 AI Hypercomputer 架构,我们迫不及待地想帮助我们的客户利用 Trillium 释放生成式 AI 模型的下一个前沿领域的价值。
- SADA CTO,Miles Ward
AI Hypercomputer 还提供 AI/ML 工作负载所需的灵活消费模型。动态工作负载调度程序 (DWS) 让访问 AI/ML 资源变得更加容易,并帮助客户优化支出。Flex 启动模式可以通过同时调度所需的所有加速器来改善突发工作负载(例如训练、微调或批处理作业)的体验,无论您采用的是哪种入口:Vertex AI Training、Google Kubernetes Engine (GKE)或是 Google Cloud Compute Engine。
Lightricks 很高兴能够通过 AI Hypercomputer 的性能提升和效率提升来重新获得价值。
“自 Cloud TPU v4 开始,我们一直在将 TPU 用于文生图和文生视频模型。凭借 TPU v5p 和 AI Hypercomputer 的效率,我们的训练速度实现了 2.5 倍的惊人提升!第六代 Trillium TPU 令人难以置信,与上一代相比,每芯片的计算性能提高了 4.7 倍,HBM 容量和带宽提高了 2 倍。当我们扩展文生视频模型时,这对我们来说它的推出正是时候。我们还期待使用 Dynamic Workload Scheduler 的弹性启动模式来管理我们的批量推理作业并管理我们未来的 TPU 预留。”
- Lightricks 核心生成式 AI 研究团队负责人 Yoav HaCohen 博士
了解更多有关 Google Cloud Trillium TPU 的信息
Google Cloud TPU 是 AI 加速领域的前沿技术,经过定制设计和优化,可为大规模 AI 模型提供支持。TPU 通过 Google Cloud 以独家方式提供,为训练和服务 AI 解决方案带来无与伦比的性能和成本效益。无论是复杂的大语言模型还是图像生成的创造性潜力,TPU 都有助于开发人员和研究人员突破 AI 世界的可能性界限。
第六代 Trillium TPU 是十多年来研究与创新的结晶,并将于今年晚些时候上市。如需了解有关 Trillium TPU 和 AI 超级计算机的更多信息,请填写此表格,我们的销售团队将会与您联系。