今年的 Cloud Next 大会上,我们推出了一系列突破性更新与强大功能,旨在赋能广大开发者,与大家携手共创人工智能的未来。本次发布亮点包括:最新的 Gemini 2.5 思考模型,实时互动体验的 Live API 的最新进展,以及正式面向开发者开放的高质量视频生成工具 Veo 2。近期,我们面向在 Google AI Studio 中使用 Gemini API 的开发者推出了许多不容错过的重要更新,一起来看看吧。

Gemini 2.5:构建新一代应用

我们近期推出了 Gemini 2.5 Pro,这是我们迄今为止性能最佳的 AI 模型,能展示出思考模型在生成响应之前进行推理的能力。作为我们迄今为止最先进的编码模型,Gemini 2.5 Pro 能打造引人注目的 Web 应用,在开发智能体编程应用方面也表现出色。

Gemini 2.5 Pro 已经开始赋能在 Google AI Studio 中使用 Gemini API 构建应用的开发者,以及使用 Vertex AI 的企业客户。

同时,我们宣布 Gemini 2.5 Flash 即将推出。作为我们热门主力模型的演进版本,Gemini 2.5 Flash 在保持低延迟和高性价比的同时,融入了强大的思考能力。

这标志着我们朝着实现所有 Gemini 模型具备自适应思考能力这一愿景,迈出了重要一步。Gemini 2.5 模型为应用开发开辟了诸多全新的应用场景,包括支持更强大的智能体,管理多智能体系统,加速编码辅助,以及利用高达 100 万 token 的上下文输入窗口,实现对整个代码库的生成式推理。

Veo 2 可用于生产环境

我们很高兴地宣布,Gemini API 中的 Veo 2 现已正式面向生产环境开放使用。Veo 2 具备遵循简单及复杂指令的能力,并能以丰富的视觉风格模拟真实世界的物理效果。Veo 2 使开发者能够直接使用文本和图像提示,在应用中生成高质量视频内容:

  • 文本到视频(t2v):通过文本描述生成视频。

  • 图像到视频(i2v):从图像生成视频,并支持可选的文本提示,以实现更精准的指导。

以 Wolf Games 为例,该公司正在构建一个生成式游戏平台,旨在创造高度个性化的互动叙事游戏体验。借助 Veo 2,他们得以构建出极具动态表现力的电影级游戏场景,显著提升了视频的真实感、动作准确度和镜头控制。Wolf Games 表示,Veo 2 将其获取理想视觉效果所需的迭代次数减少了 60% 以上,并大幅缩短了制作周期,从而加速了创意蓝图的实现。

即日起,您便可在 Google AI Studio 的 Gemini API 中使用 Veo 2:

  • 质量:720p 分辨率,24 帧/秒。

  • 时长:最长 8 秒的视频片段。

  • 定价:生成的视频每秒 0.35 美元。

想立刻尝试用视频生成功能打造互动型应用吗?敬请查阅我们的文档提示指南以及 Veo 2 入门教程。同时,欢迎了解 Vertex AI 在语音和音乐等其他模态的企业级生成媒体解决方案。

Gemini 模型 Live API:预览版带来全新功能

动态、实时的互动体验对于构建下一代 AI 应用至关重要。Gemini 模型的 Live API 现已推出预览版,旨在帮助开发者构建更强大、可扩展的应用,显著提升速率限制。开发者现在即可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 抢先体验前沿功能。

使用 Live API 构建应用与智能体,开发者能轻松实现低延迟处理流式音频、视频和文本的能力,为创建如同真人般的对话、实时会议以及监控实时场景提供理想的解决方案。从 12 月推出实验版以来,我们广泛收集了开发者的反馈,并在此次公开试用版中引入了多项备受期待的功能:

  • 支持 30 种全新语言并新增两种语音选项。

  • 支持可配置的语音活动检测(VAD),可更灵活地自定义 VAD 解决方案。

  • 通过滑动上下文窗口实现近乎无限的会话时长

  • 以及更多增强功能。

这些功能以及强大的工具集成(包括搜索、代码执行和函数调用)使 Live API 成为在高度互动型应用中使用 Gemini 2.0 Flash 等模型的理想选择。

想进一步了解如何构建实时互动体验吗?敬请查阅我们的文档并获取 Live API 入门教程

共创开发新纪元

我们对这些更新能如何挖掘开发者社区的巨大潜力感到无比振奋。从 Gemini 2.5 更为强大的思考能力,到通过 Live API 实现的实时互动,以及 Veo 2 突破性的视频生成能力,我们热切期待各位开发者能够创造出令人瞩目的创新成果!

相关推荐