在 I/O 2025 大会上,我们的目标是在生成式 AI 方面兼顾展示与讲述。我们分享了关于最新视频和图像生成模型 Veo 3 和 Imagen 4 的激动人心的消息,并且还扩展了音乐生成模型 Lyria 2 的访问权限。同时,我们也发布了一款 AI 影片制作工具 Flow,能让您借助我们最强大的生成模型,轻松创作风格一致的电影片段、场景和故事。

但我们也将其中一些工具应用到了全年最重要的活动中—— I/O 主题演讲中的 219 张幻灯片由 AI 生成,48% 的主题演讲视觉内容由 Imagen 制作,80% 的主题演讲视频以某种方式使用了 Veo 或 Imagen。以下是我们如何使用自己的 AI 工具(包括我们如何编写提示词)来打造 I/O 2025 的深入探讨:

Veo 2:创建具有风格的演讲者介绍页

当我们的搜索副总裁兼主管 Elizabeth Reid 走上台来分享重要的搜索更新时,舞台上的屏幕播放了一段短视频,视频中,Liz 张开手,掌心上方几英寸处,一只精致的橙色折纸鹤旋转着、悬浮着。

我们利用 AI Studio 和 Vertex AI Studio(由 Veo 2 提供支持)中的“图像转视频”功能制作了此视频以及其他演讲者介绍页视频。我们收集了演讲者的头像照片,以及一些关于他们兴趣爱好的细节,用于制作提示词。以下是我们为研究科学家 Jason Baldridge 制作标题卡时使用的提示:

主角是一位摇滚明星。举起一把双颈吉他,开始演奏。留着莫霍克发型。”


以下是 Veo 2 为我们生成的内容,结合了一些简单的动画,以及您在舞台上看到的画面:

Imagen 4 和 Veo 3:故事板和影片制作

多部 I/O 影片在创作过程中运用了 AI 工具。开场影片带领观众穿越西部主题小镇,体验疯狂刺激的旅程,随后镜头拉近,彩色气球拼出“Welcome to I/O,拉开了主题演讲的序幕。

团队使用了几种不同的 AI 工具来制作它。他们首先使用 Imagen 4 生成视频提示所需的图像。他们还咨询了 Google DeepMind 团队,要求 Gemini 重写他们的提示,以便找到能达到预期效果的语言。以下是第一幕的提示:

超现实主义的数码摄影,捕捉了 19 世纪西部边境小镇标志性的、荒凉的、极其寂静的街道。

他们得到的是:

团队将这张图片添加到 Veo 3 的提示中,其中包含如下说明:

镜头向下,指向下方崎岖的地形,它从我们下方掠过,随后它向上平移,捕捉到远处一个小的拓荒者鬼城。唯一的声音是沙漠风孤独而富有氛围的口哨声。

获得图像和提示语后,他们开始使用我们最新的 Veo 3 技术(可通过我们的 Google AI Ultra 计划获取!)生成影片。他们还使用 Veo 3 进行了一些修改,例如添加俯拍镜头、广角镜头和不同的视觉效果,并实时审查输出结果。与传统影片制作中必须重新拍摄场景不同,摄制组能够更快地完成工作。无需任何编码经验:虽然参与此视频制作的一些 Google 员工在编辑视频时使用了 Colab 功能编写代码,但许多其他人则使用了文本转视频提示功能,用自然语言写下他们的编辑和请求。

以下是用于创作影片最后时刻之一的提示:

我们持续拉远镜头,画面展现出一座充满活力、熙熙攘攘的小镇。这里是一场欢庆的聚会,所有生物和 Google 物品都聚集在这里,共同庆祝 Google I/O 大会。

Lyria RealTime:与 Toro y Moi 实时即兴创作

在我们的 I/O 预演中,艺术家 Toro y Moi 在一场音乐演出中使用 Lyria RealTime 来展示该模型的最新功能和性能。Lyria RealTime 是我们全新的交互式音乐生成模型,它允许您实时以交互方式创作、控制和演奏生成音乐。您可以混合和变形乐器、声音、音乐类型等等。“这将是一场演出,也是一次实验,”他在开始之前说道。“我演奏的一切都完全是即兴的,基本上就是在和电脑一起即兴演奏。电脑也会和我一起即兴演奏。”

在演出开始前的几周,团队向 Toro y Moi 提供了 Lyria RealTime 的原型,让他可以尝试并完善他的提示词。这帮助他构思出了一个创意概念和一些可以在演出中使用的提示词。他想出的 16 个声音提示词,包括“混乱的康加鼓手”和“变调的英国丛林鼓”,都被分配到了实体 MIDI 控制器上的旋钮上。

通过 MIDI 控制器在本地机器上运行 Lyria RealTime,让 Toro y Moi 在舞台上使用该模型,并让观众看到界面的实际运作。

演出期间,我们利用 Lyria RealTime API 构建的一款运行在 MIDI 控制器上的应用程序,在 Toro y Moi 身后的屏幕上闪现。观众可以一睹这款应用程序创建和控制连续音乐流的选项,以及他使用的提示音,同时他添加了多层键盘和人声的华丽音效。

在 AI Studio 中尝试使用 Lyria Live API。

AI Studio:设计 AI 生成的周边

我们在 Google AI Studio(我们免费使用的界面,可让您快速试用模型并尝试不同的提示)中使用了多个 Gemini 模型,帮助我们制作了今年带有全新定制徽标的 I/O 主题 T 恤。正如 T 恤的标签所示,创意提示是“Google I/O 主题融入地面,彩虹色,插画,摄影棚灯光”。以下是我们的制作流程:

首先,团队在 AI Studio 中选择了 Gemini 2.5 Pro,并通过详尽的系统指令提示概述了他们的目标。

为 Gemini 生成一个带有图像输出功能的提示。我将提供一张特定的基础为图像Gemini 将在此基础上进行修改。该图像是一个特定的徽标,包含一个矩形、一个细长的矩形(代表“/”)和一个圆柱体。其形状和样式经过精心设计。重要的是,模型必须修改现有图像,而不是凭空创造。这需要对原始图像有非常清晰和直观的理解。每个徽标的顶部(白色)部分保留其形状。该提示词应该为模型提供非常清晰的指令,说明在保留徽标原始组件的情况下,修改图像的限制条件。这里是一场欢庆的聚会,所有生物和 Google 物品都聚集在这里,共同庆祝 Google I/O 大会。

为您提供包含创意修改和基础图像的提示词。请提供一个清单,确保所有三个形状(矩形、斜线和圆柱体)仍然存在,供模型遵循。背景为纯白色。

仅以 Markdown 格式提供提示词。

设定好这些指导原则后,他们开始进行上述创作。Gemini 2.5 Pro 会生成一段文字,列出所需图像输出的要求和风格构思。例如:“核心形状:三个原始形状(整体矩形、细斜线/矩形和圆柱体)的基本几何形状必须清晰可辨且视觉上仍保持独特,即使在其边缘应用了融化效果后,不要将核心结构扭曲超出融化颜料的效果。”

一旦团队拥有了这些书面指示,他们就开始使用我们的主力模型,Gemini 2.0 Flash 进行图像生成,根据之前生成的列表生成一系列提议的图像输出。

经过大量实验后,他们最终确定了几种设计方案——以及这最终方案。

值得注意的是,团队也尝试了跳过 Gemini 2.5 Pro 的初始提示词重写,直接在 AI Studio 中使用 Gemini 2.0 Flash——虽然他们感觉已经接近目标,但使用 2.5 Pro 重写后的效果始终更好,细节也更具创意。最终,他们制作出了一些非常酷炫的 T 恤!

相关推荐

精选内容

关注【谷歌云服务】
微信公众号
微信咨询:
周一至周五 早上 9 点到晚上 6 点
联系我们