我们如何在 I/O 2025 大会上使用生成式媒体- Google Cloud

在 I/O 2025 大会上，我们的目标是在生成式 AI 方面兼顾展示与讲述。我们分享了关于最新视频和图像生成模型 Veo 3 和 Imagen 4 的激动人心的消息，并且还扩展了音乐生成模型 Lyria 2 的访问权限。同时，我们也发布了一款 AI 影片制作工具 Flow，能让您借助我们最强大的生成模型，轻松创作风格一致的电影片段、场景和故事。

但我们也将其中一些工具应用到了全年最重要的活动中—— I/O 主题演讲中的 219 张幻灯片由 AI 生成，48% 的主题演讲视觉内容由 Imagen 制作，80% 的主题演讲视频以某种方式使用了 Veo 或 Imagen。以下是我们如何使用自己的 AI 工具（包括我们如何编写提示词）来打造 I/O 2025 的深入探讨：

Veo 2：创建具有风格的演讲者介绍页

当我们的搜索副总裁兼主管 Elizabeth Reid 走上台来分享重要的搜索更新时，舞台上的屏幕播放了一段短视频，视频中，Liz 张开手，掌心上方几英寸处，一只精致的橙色折纸鹤旋转着、悬浮着。

我们利用 AI Studio 和 Vertex AI Studio（由 Veo 2 提供支持）中的“图像转视频”功能制作了此视频以及其他演讲者介绍页视频。我们收集了演讲者的头像照片，以及一些关于他们兴趣爱好的细节，用于制作提示词。以下是我们为研究科学家 Jason Baldridge 制作标题卡时使用的提示：

“主角是一位摇滚明星。他举起一把双颈吉他，开始演奏。他留着莫霍克发型。”

以下是 Veo 2 为我们生成的内容，结合了一些简单的动画，以及您在舞台上看到的画面：

Imagen 4 和 Veo 3：故事板和影片制作

多部 I/O 影片在创作过程中运用了 AI 工具。开场影片带领观众穿越西部主题小镇，体验疯狂刺激的旅程，随后镜头拉近，彩色气球拼出“Welcome to I/O，拉开了主题演讲的序幕。

团队使用了几种不同的 AI 工具来制作它。他们首先使用 Imagen 4 生成视频提示所需的图像。他们还咨询了 Google DeepMind 团队，要求 Gemini 重写他们的提示，以便找到能达到预期效果的语言。以下是第一幕的提示：

超现实主义的数码摄影，捕捉了 19 世纪西部边境小镇标志性的、荒凉的、极其寂静的街道。

他们得到的是：

团队将这张图片添加到 Veo 3 的提示中，其中包含如下说明：

镜头向下，指向下方崎岖的地形，它从我们下方掠过，随后它向上平移，捕捉到远处一个小的拓荒者鬼城。唯一的声音是沙漠风孤独而富有氛围的口哨声。

获得图像和提示语后，他们开始使用我们最新的 Veo 3 技术（可通过我们的 Google AI Ultra 计划获取！）生成影片。他们还使用 Veo 3 进行了一些修改，例如添加俯拍镜头、广角镜头和不同的视觉效果，并实时审查输出结果。与传统影片制作中必须重新拍摄场景不同，摄制组能够更快地完成工作。无需任何编码经验：虽然参与此视频制作的一些 Google 员工在编辑视频时使用了 Colab 功能编写代码，但许多其他人则使用了文本转视频提示功能，用自然语言写下他们的编辑和请求。

以下是用于创作影片最后时刻之一的提示：

“我们持续拉远镜头，画面展现出一座充满活力、熙熙攘攘的小镇。这里是一场欢庆的聚会，所有生物和 Google 物品都聚集在这里，共同庆祝 Google I/O 大会。

Lyria RealTime：与 Toro y Moi 实时即兴创作

在我们的 I/O 预演中，艺术家 Toro y Moi 在一场音乐演出中使用 Lyria RealTime 来展示该模型的最新功能和性能。Lyria RealTime 是我们全新的交互式音乐生成模型，它允许您实时以交互方式创作、控制和演奏生成音乐。您可以混合和变形乐器、声音、音乐类型等等。“这将是一场演出，也是一次实验，”他在开始之前说道。“我演奏的一切都完全是即兴的，基本上就是在和电脑一起即兴演奏。电脑也会和我一起即兴演奏。”

在演出开始前的几周，团队向 Toro y Moi 提供了 Lyria RealTime 的原型，让他可以尝试并完善他的提示词。这帮助他构思出了一个创意概念和一些可以在演出中使用的提示词。他想出的 16 个声音提示词，包括“混乱的康加鼓手”和“变调的英国丛林鼓”，都被分配到了实体 MIDI 控制器上的旋钮上。

通过 MIDI 控制器在本地机器上运行 Lyria RealTime，让 Toro y Moi 在舞台上使用该模型，并让观众看到界面的实际运作。

演出期间，我们利用 Lyria RealTime API 构建的一款运行在 MIDI 控制器上的应用程序，在 Toro y Moi 身后的屏幕上闪现。观众可以一睹这款应用程序创建和控制连续音乐流的选项，以及他使用的提示音，同时他添加了多层键盘和人声的华丽音效。

在 AI Studio 中尝试使用 Lyria Live API。

AI Studio：设计 AI 生成的周边

我们在 Google AI Studio（我们免费使用的界面，可让您快速试用模型并尝试不同的提示）中使用了多个 Gemini 模型，帮助我们制作了今年带有全新定制徽标的 I/O 主题 T 恤。正如 T 恤的标签所示，创意提示是“Google I/O 主题融入地面，彩虹色，插画，摄影棚灯光”。以下是我们的制作流程：

首先，团队在 AI Studio 中选择了 Gemini 2.5 Pro，并通过详尽的系统指令提示概述了他们的目标。

为 Gemini 生成一个带有图像输出功能的提示。我将提供一张特定的基础为图像，Gemini 将在此基础上进行修改。该图像是一个特定的徽标，包含一个矩形、一个细长的矩形（代表“/”）和一个圆柱体。其形状和样式经过精心设计。重要的是，模型必须修改现有图像，而不是凭空创造。这需要对原始图像有非常清晰和直观的理解。每个徽标的顶部（白色）部分保留其形状。该提示词应该为模型提供非常清晰的指令，说明在保留徽标原始组件的情况下，修改图像的限制条件。这里是一场欢庆的聚会，所有生物和 Google 物品都聚集在这里，共同庆祝 Google I/O 大会。

为您提供包含创意修改和基础图像的提示词。请提供一个清单，确保所有三个形状（矩形、斜线和圆柱体）仍然存在，供模型遵循。背景为纯白色。

请仅以 Markdown 格式提供提示词。

设定好这些指导原则后，他们开始进行上述创作。Gemini 2.5 Pro 会生成一段文字，列出所需图像输出的要求和风格构思。例如：“核心形状：三个原始形状（整体矩形、细斜线/矩形和圆柱体）的基本几何形状必须清晰可辨且视觉上仍保持独特，即使在其边缘应用了融化效果后，不要将核心结构扭曲超出融化颜料的效果。”

一旦团队拥有了这些书面指示，他们就开始使用我们的主力模型，Gemini 2.0 Flash 进行图像生成，根据之前生成的列表生成一系列提议的图像输出。

经过大量实验后，他们最终确定了几种设计方案——以及这最终方案。

值得注意的是，团队也尝试了跳过 Gemini 2.5 Pro 的初始提示词重写，直接在 AI Studio 中使用 Gemini 2.0 Flash——虽然他们感觉已经接近目标，但使用 2.5 Pro 重写后的效果始终更好，细节也更具创意。最终，他们制作出了一些非常酷炫的 T 恤！

文章信息

精选内容

关注【谷歌云服务】
微信公众号

微信咨询：

周一至周五早上 9 点到晚上 6 点

联系我们

我们如何在 I/O 2025 大会上使用生成式媒体

文章信息

相关推荐

精选内容