今天,我们很高兴地宣布,由最新 Gemini 2.5 Flash Native Audio 模型驱动的 Gemini Live API 已在 Vertex AI 平台正式上线。
具有远见的企业已率先采用 Gemini Live API 打造下一代多模态对话 AI,将语音、视觉与文本完美结合,带来如真人般自然且深刻理解情境的互动体验。这对 Google Cloud 客户意味着:您可以部署低延迟的语音和视频智能体,并在处理最高强度的业务流时,依然享有卓越的稳定性和性能表现。
凭借实时多模态 AI 智能体,定义全新标杆
Gemini Live API 树立了让 AI“活”起来的新标杆。试想一下,一个智能体不仅能倾听,还能即时理解您的意图和屏幕内容,敏锐捕捉您声音中的情感,并用极其自然的声音与您实时对答。
这种灵动的交互体验,全靠 Gemini 2.5 Flash Native Audio 模型提供动力。我们的初衷很简单:把 Google 卓越体验中同款的高质量对话智能,原汁原味地带到您的企业应用中。
对于实时交互而言,精度与速度缺一不可。Gemini Live API 采用原生多模态架构,专为驾驭人类对话中瞬息万变的复杂性而设计:
即使在说话中途被打断,它也能流畅应对,毫无卡顿,保证如真人般的自然对答。
它深谙音调与节奏等听觉细节,能够解码说话人的真实意图和情感色彩。
它能“看懂”并讨论您分享的复杂视觉数据(如图表、实时视频、示意图),提供即时且切合情境的帮助。
依托 Vertex AI,实现无忧部署
Gemini Live API 专为成就企业而生。Vertex AI 提供了您的关键任务智能体在生产环境中所必需的安全性和稳定性。
Gemini 2.5 Flash Native Audio 模型经过优化,能够以始终如一的低延迟性能处理海量并发交互。在 Vertex AI 上部署,意味着您可以利用我们遍布众多区域且不断拓展的全球基础设施,为您的用户提供卓越的可靠性。此外,企业级的数据驻留功能让您可自主掌控数据处理的位置,助您满足关键的监管和合规标准。
借助 Gemini Live API 创造真实商业价值
Gemini Live API 的真正威力,体现在那些正在利用它重塑客户体验的企业身上。
全球电商巨头 Shopify 打造了 Sidekick – 一款由 Vertex AI 上的 Gemini Live API 驱动的多模态 AI 助理。它提供个性化的可靠支持,让员工无需坐在办公桌前也能获得帮助,直接实时解决问题,从而免去了传统的工单流转环节。
“用户在使用 Sidekick 时,往往不到一分钟就会忘记自己是在与 AI 对话,甚至在长谈结束后,还会情不自禁地向机器人道谢。对于创业者而言,这真是一个激动人心的时代。Gemini 带来的全新 AI 能力,赋予了我们平台上的商家制胜市场的底气。”
——David Wurtz,Shopify 产品副总裁
通过部署 AI 信贷专员助手 Mia,United Wholesale Mortgage (UWM) 彻底革新了其业务模式,为其经纪人合作伙伴带来了巨大的效率飞跃。
“自 2025 年 5 月上线起,我们凭借 Gemini 2.5 Flash Native Audio 模型与 Vertex AI 上的 Gemini Live API,让 Mia 的能力实现了质的飞跃。这一强力组合已帮助我们的经纪人合作伙伴促成了超过 14,000 笔贷款,有力地印证了 AI 在 UWM 绝非一句空谈。”
——Jason Bressler,UWM 首席技术官
SightCall 致力于提供远程视频支持及 AI 驱动的视觉辅助,助力客服与外勤团队大幅提升问题解决速度。
“Gemini 2.5 Flash Native Audio 模型不只是快,更具备极其自然的‘人味’,这正是此次合作最激动人心之处。当它与 SightCall Xpert Knowledge™ 相结合,就变身成一位实时在线的专家,拥有与您最资深的技术人员同等的知识储备…这就是视觉化支持的未来。”
——Thomas Cottereau,SightCall 首席执行官
Napster 利用 Gemini Live API 的视觉和语音能力,让用户能与专属的 AI 助理协同创作,并获得即时指引。
“依托 Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型,我们实现了技术上的突破:创造出能看见您、理解您的屏幕内容,并能像专家一样实时对答的 AI 助理。这种视听结合带来了真正的协作 – 不需要复杂的提示词,也不需要懂技术 – 仅仅是自然的对话,AI 就能深刻理解您的情境,激发每一个人的创意和专业能力。”
——Edo Segal,Napster 首席技术官
Lumeris 正在极具挑战的环境中部署健康 AI 助理 Tom,因为在这里,理解微妙语意和感知情绪的能力至关重要。
“迁移到 Vertex AI 上的 Gemini Live API 是我们的一项战略投资,旨在打造更自然、高效的医患对话。这带来了响应更快、更个性化的语音体验。对于 Lumeris 来说,我们要提升患者与 Tom(作为我们初级保健团队一员的智能体)之间互动的质量。这正在帮助我们为患者护理树立全新的标准。”
——Jean-Claude Saghbini,Lumeris 总裁兼首席技术官
Newo 部署的多功能 AI 接待员,具备了拟真度极高且情感敏锐的对话能力,能够应对从普通咨询到销售转化的全流程任务。
“借助 Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型,Newo.ai 的 AI 接待员实现了业界领先的对话智能 – 兼具超低延迟与深度推理能力。即使在噪音环境下,它也能识别主要说话人,支持中途切换语言,语调更是自然流畅、极富感染力。我们基于 Gemini Live API 的外呼 AI 销售智能体不仅会笑、会打趣,还能建立真正的情感连接,让每一次通话都充满‘人味’。”
——David Yang,Newo.ai 联合创始人
11Sight 凭借能够自动预约和达成销售的 AI 对话智能体,正在重塑客户交互体验。
“Vertex AI 上的 Gemini 2.5 Flash Native Audio 模型为我们提供了所需的企业级平台,使我们能够快速打造响应延迟极低的语音 AI 智能体。这一方案与我们的 Sentinel AI Agents 相结合,助推我们的电话解决率从 2 月份的 40% 提高到了 11 月份的 60%。”
——Farokh Eskafi 博士,11Sight 首席技术官
今天就动手打造您的下一代智能体
您可通过以下方式,立即上手在 Vertex AI 上利用 Gemini Live API 进行开发:
前往 Vertex AI Studio,即刻试用 Gemini Live API。
阅读开发者博客,深入探索创意场景、代码示例和分步实现指南。
查看 Gemini Live API 文档,了解具体的 API 细节、参考架构和更多演示。
文章信息
相关推荐
精选内容
微信公众号