今天,我们很高兴地宣布,由最新 Gemini 2.5 Flash Native Audio 模型驱动的 Gemini Live API 已在 Vertex AI 平台正式上线。

具有远见的企业已率先采用 Gemini Live API 打造下一代多模态对话 AI,将语音、视觉与文本完美结合,带来如真人般自然且深刻理解情境的互动体验。这对 Google Cloud 客户意味着:您可以部署低延迟的语音和视频智能体,并在处理最高强度的业务流时,依然享有卓越的稳定性和性能表现。

凭借实时多模态 AI 智能体,定义全新标杆

Gemini Live API 树立了让 AI“活”起来的新标杆。试想一下,一个智能体不仅能倾听,还能即时理解您的意图和屏幕内容,敏锐捕捉您声音中的情感,并用极其自然的声音与您实时对答。

这种灵动的交互体验,全靠 Gemini 2.5 Flash Native Audio 模型提供动力。我们的初衷很简单:把 Google 卓越体验中同款的高质量对话智能,原汁原味地带到您的企业应用中。

对于实时交互而言,精度与速度缺一不可。Gemini Live API 采用原生多模态架构,专为驾驭人类对话中瞬息万变的复杂性而设计:

  • 即使在说话中途被打断,它也能流畅应对,毫无卡顿,保证如真人般的自然对答

  • 它深谙音调与节奏等听觉细节,能够解码说话人的真实意图和情感色彩

  • 它能“看懂”并讨论您分享的复杂视觉数据(如图表、实时视频、示意图),提供即时且切合情境的帮助

依托 Vertex AI,实现无忧部署

Gemini Live API 专为成就企业而生。Vertex AI 提供了您的关键任务智能体在生产环境中所必需的安全性和稳定性。

Gemini 2.5 Flash Native Audio 模型经过优化,能够以始终如一的低延迟性能处理海量并发交互。在 Vertex AI 上部署,意味着您可以利用我们遍布众多区域且不断拓展的全球基础设施,为您的用户提供卓越的可靠性。此外,企业级的数据驻留功能让您可自主掌控数据处理的位置,助您满足关键的监管和合规标准。

借助 Gemini Live API 创造真实商业价值

Gemini Live API 的真正威力,体现在那些正在利用它重塑客户体验的企业身上。

全球电商巨头 Shopify 打造了 Sidekick – 一款由 Vertex AI 上的 Gemini Live API 驱动的多模态 AI 助理。它提供个性化的可靠支持,让员工无需坐在办公桌前也能获得帮助,直接实时解决问题,从而免去了传统的工单流转环节。

“用户在使用 Sidekick 时,往往不到一分钟就会忘记自己是在与 AI 对话,甚至在长谈结束后,还会情不自禁地向机器人道谢。对于创业者而言,这真是一个激动人心的时代。Gemini 带来的全新 AI 能力,赋予了我们平台上的商家制胜市场的底气。”

——David Wurtz,Shopify 产品副总裁

通过部署 AI 信贷专员助手 Mia,United Wholesale Mortgage (UWM) 彻底革新了其业务模式,为其经纪人合作伙伴带来了巨大的效率飞跃。

“自 2025 年 5 月上线起,我们凭借 Gemini 2.5 Flash Native Audio 模型与 Vertex AI 上的 Gemini Live API,让 Mia 的能力实现了质的飞跃。这一强力组合已帮助我们的经纪人合作伙伴促成了超过 14,000 笔贷款,有力地印证了 AI 在 UWM 绝非一句空谈。”

——Jason Bressler,UWM 首席技术官

SightCall 致力于提供远程视频支持及 AI 驱动的视觉辅助,助力客服与外勤团队大幅提升问题解决速度。

“Gemini 2.5 Flash Native Audio 模型不只是快,更具备极其自然的‘人味’,这正是此次合作最激动人心之处。当它与 SightCall Xpert Knowledge相结合,就变身成一位实时在线的专家,拥有与您最资深的技术人员同等的知识储备…这就是视觉化支持的未来。”

——Thomas Cottereau,SightCall 首席执行官

Napster 利用 Gemini Live API 的视觉和语音能力,让用户能与专属的 AI 助理协同创作,并获得即时指引。

“依托 Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型,我们实现了技术上的突破:创造出能看见您、理解您的屏幕内容,并能像专家一样实时对答的 AI 助理。这种视听结合带来了真正的协作 – 不需要复杂的提示词,也不需要懂技术 – 仅仅是自然的对话,AI 就能深刻理解您的情境,激发每一个人的创意和专业能力。”

——Edo Segal,Napster 首席技术官

Lumeris 正在极具挑战的环境中部署健康 AI 助理 Tom,因为在这里,理解微妙语意和感知情绪的能力至关重要。

“迁移到 Vertex AI 上的 Gemini Live API 是我们的一项战略投资,旨在打造更自然、高效的医患对话。这带来了响应更快、更个性化的语音体验。对于 Lumeris 来说,我们要提升患者与 Tom(作为我们初级保健团队一员的智能体)之间互动的质量。这正在帮助我们为患者护理树立全新的标准。”

——Jean-Claude Saghbini,Lumeris 总裁兼首席技术官

Newo 部署的多功能 AI 接待员,具备了拟真度极高且情感敏锐的对话能力,能够应对从普通咨询到销售转化的全流程任务。

“借助 Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型,Newo.ai 的 AI 接待员实现了业界领先的对话智能 – 兼具超低延迟与深度推理能力。即使在噪音环境下,它也能识别主要说话人,支持中途切换语言,语调更是自然流畅、极富感染力。我们基于 Gemini Live API 的外呼 AI 销售智能体不仅会笑、会打趣,还能建立真正的情感连接,让每一次通话都充满‘人味’。”

——David Yang,Newo.ai 联合创始人

11Sight 凭借能够自动预约和达成销售的 AI 对话智能体,正在重塑客户交互体验。

“Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型为我们提供了所需的企业级平台,使我们能够快速打造响应延迟极低的语音 AI 智能体。这一方案与我们的 Sentinel AI Agents 相结合,助推我们的电话解决率从 2 月份的 40% 提高到了 11 月份的 60%。”

——Farokh Eskafi 博士,11Sight 首席技术官

今天就动手打造您的下一代智能体

您可通过以下方式,立即上手在 Vertex AI 上利用 Gemini Live API 进行开发:

相关推荐

精选内容

关注【谷歌云服务】
微信公众号
微信咨询:
周一至周五 早上 9 点到晚上 6 点
联系我们