我们很高兴在 Vertex AI 上推出新一代生成式 AI 媒体模型:Imagen 4、Veo 3 和 Lyria 2。
我们已经看到有客户使用 Imagen 3 (Google 的图像生成模型)生成出令人惊艳、栩栩如生的图像。并通过 Veo 2 将这些图像转化为高质量的视频和素材。我们甚至看到客户将这些引人注目的视频,通过 Lyria (Google 先进的 AI 音乐生成模型)生成专业级音频,赋予其生命力。
随着生成式 AI 媒体在市场营销、媒体等领域的广泛应用,讲述故事变得前所未有的简单。用户可以更快地创建广告素材,并打造突破性的创意内容。接下来,让我们来了解一下每个模型,并指导您如何立即开始使用。
Imagen 4:更高质量的图像生成
我们很高兴宣布 Imagen 4 文本转图像生成功能在 Vertex AI 上推出公开预览版。作为 Google 最高质量的图像生成模型,Imagen 4 提供以下功能:
出色的文本渲染和提示词遵循性
在所有风格下都能实现更高的整体图像质量
支持多语言的提示词,助力全球创作者
提示词:捕捉一个亲密的特写镜头,沐浴在温暖柔和的午后阳光中,阳光透过窗户洒入一间典型的 1960 年代厨房。焦点是一个迷人设计的全能面粉复古包装,惬意地摆放在带有斑点的防火板(Formica)台面上。包装本身唤起了纯粹的怀旧感:也许是厚厚的、略有质感的暖奶油色纸张,上面装饰着简单粗犷的排版(友好的衬线字体或手写字体)以经典的红色和蓝色标示“ALL-PURPOSE FLOUR(通用面粉)”,并且配有一个美丽的插图,比如风格化的小麦穗或一个愉快的面包师形象。包装底部用较小的粗体字打印着:“净重 5 磅 (80 盎司) 2.27 公斤”。清晰对焦于包装的细节——纸袋略显柔和的边缘、复古印刷的质感、以及引人注目的“通用面粉”字样。1960 年代厨房的微妙元素构成了画面的背景——台面的镀铬边缘柔和地闪着光,模糊中可以看到淡黄色瓷砖的墙面,或者一个略微失焦的复古金属罐的一角。浅景深让注意力锁定在设计精美的包装上,营造出一种充满温暖、真实和怀旧魅力的美感。
提示词:这部四格漫画采用了一种迷人的、刻意像素化的艺术风格,让人联想起经典的 8 位电子游戏,以简单的形状和有限而明亮的调色板为主,主要以绿色、蓝色、棕色和恐龙标志性的灰黑色为主,场景设定在一个风格化的像素海滩。第一格展示了我们熟悉的谷歌浏览器小恐龙(T-Rex),它有着标志性的像素化外形,戴着小小的像素太阳镜,躺在像素化的沙滩巾上,沐浴在块状的黄色阳光下。背景中,像素化的棕榈树在蓝色像素天空的映衬下轻轻摇曳。一个带有像素化字体的标题框写着:“Even error messages need a vacation.(就算是错误信息也需要放个假)”第二格是小恐龙正试图建造一座像素沙堡的特写。它笨拙地用它小小的像素化的手臂拍打着一堆棕色像素块,一副专注的样子。周围的沙滩上点缀着一些小小的像素化贝壳。第三格描绘了小恐龙欢快地跳过海滩附近种植的一系列像素化仙人掌,模拟它在游戏中的避障动作。每次跳跃上方都会出现“Boing!Boing!(蹦!蹦!)”的短促音效文字,并以块状字体显示。一只像素化的螃蟹在一旁注视着,挥舞着它的像素蟹钳。最后一格描绘了小恐龙平静地仰面漂浮在块状蓝色像素水中,墨镜依然戴着,表情满足。上方有一个小小的思维泡泡,里面是像素化的“Zzz……”,表示它正在放松。
提示词:以电影般的镜头从驾驶座拍摄,清晰地展现前排乘客座位上那位有着醒目红发的年轻乘客的侧面轮廓。她目光凝视前方,专注于观察着透过侧窗可见的尘土飞扬、孤寂的公路。侧窗模糊映照着一片广阔干涸的干地,或许还有远处朦胧的群山。她的手臂搭在窗台或方向盘上。镜头中还捕捉到了她身旁那辆老旧卡车内饰的一部分——车门面板,或许还有一丝磨损的座椅面料。光线可能是午后的阳光,在她脸上和卡车内部投下长长的阴影和温暖的高光。这个角度凸显了她在广阔空旷的景色中独自的存在和沉思的状态。
要在 Vertex AI 上开始访问处于公开预览阶段的 Imagen 4,您可以使用 Media Studio 或运行以下代码示例,该示例使用适用于 Python 的 Google Gen AI SDK。
from google import genai # TODO(developer): Update and un-comment below lines # project_id = "PROJECT_ID" client = genai.Client(vertexai=True, project=project_id, location="us-central1") prompt = """ A white wall with two Art Deco travel posters mounted. First poster has the text: "NEPTUNE", tagline: "The jewel of the solar system!' Second poster has the text: "JUPITER", tagline: "Travel with the giants! """ image = client.models.generate_images( model="imagen-4.0-generate-preview-05-20", prompt=prompt, ) # OPTIONAL: View the generated image in a notebook # image.generated_images[0].image.show() |
Veo 3:生成有音频和语音的高质量视频
Veo 3 是我们最新推出的、来自 Google DeepMind 的先进视频生成模型。借助 Veo 3,您可以生成以下类型的视频:
从文本和图像提示词生成视频时,质量得到提升
语音,例如对话和旁白
音频,例如音乐和音效
以下是一些客户对 Veo 带来的生产力和创造力提升的评价:
数字支付领域的领导者 Klarna 正在利用 Vertex AI 上的 Veo 和 Imagen 来提升内容创作效率。从 B-roll(补充镜头)到 YouTube 视频的片头片尾,该公司正在显著缩短制作周期。
“在 Klarna,我们不断探索突破营销创新界限的方法,而 Veo 彻底改变了我们的创意工作流程。借助 Veo 和 Imagen,过去耗时耗力的制作流程转变成了快速高效的任务,使我们能够快速扩展内容创作规模。无论是制作吸引人的 B-roll、打造引人注目的 YouTube 片头,还是开发生动的社交媒体动画,这些工具都让我们的团队更加灵活和富有创造力。结果显而易见,它们带来了更高的参与度和内容表现。借助 Google Cloud,我们正在为未来的业务发展奠定基础,并彻底改变我们品牌焕发生机的方式。”
—— Klarna 首席营销官 David Sandström
Jellyfish 是 Brandtech 集团旗下一家知名的数字营销公司,已将 Veo 集成到其性能卓越的 AI 营销平台 Pencil 中,并与日本航空合作,提供 AI 生成的机上娱乐服务。
“Veo 2 与 Pencil 的结合,进一步强化了我们致力于赋能市场营销人员的承诺。利用先进的 AI,使他们能够制作出不仅更智能、更快速,同时也更大胆、更富艺术灵感的营销活动。我们的试点项目取得了令人瞩目的成果,成本和产品上市时间平均降低了 50%。这种在控制和质量上的重大改进,能够在几分钟内将之前不可能实现的创意转化为真实的营销内容。日本航空公司(Japan Airlines)在将生成式 AI 应用于旅游行业方面处于领先地位,我们期待看到其他品牌效仿。”
—— Brandtech 创始人兼首席执行官 David Jones
卡夫亨氏 (Kraft Heinz) 的 Tastemaker 平台使其团队能够访问 Imagen 和 Veo,从而显著加快创意和营销活动的开发流程。
“使用 Vertex AI 上的 Veo 和 Imagen 作为我们 Tastemaker 平台的一部分,卡夫亨氏的创意工作流程实现了前所未有的速度和效率。以前需要八周才能完成的工作现在只需八小时,从而大幅节省了成本。”
——数字体验与增长主管 Justin Thomas
Envato 是全球领先的数字创意资源和模板提供商,该公司使用 Veo 2 开发了其最新推出的视频生成功能 VideoGen,旨在帮助创意专业人士将文本或图像转换为超逼真和电影般的视频内容。
“我们尝试过许多顶级的视频模型,而 Veo 2 在处理各种文本和图像输入时,在速度和质量方面都取得了令人印象深刻的效果。在推出后的最初几天内,就有数万名 Envato 订阅用户访问了 VideoGen,他们生成的视频中近 60% 被下载用于创意项目。自 3 月份以来,Envato 的 VideoGen 使用量逐月增长超过 100%。与 Google Cloud 合作,通过 Veo 将 Envato 的 VideoGen 功能变为现实,这令人非常愉快。”
——Envato AI 产品负责人 Aaron Rutley 表示。
了解其工作方式:Veo 3 能够处理复杂的提示词细节,如以下示例所示。
提示词:中景镜头,历史冒险场景:温暖的灯光照亮了一位制图师,他正坐在杂乱的书房里,仔细端详着一张摊在大桌子上的古老而杂乱的地图。制图师:“根据这张古老的海图,那座失落的岛屿并非神话!我们必须立即准备一次探险!”
提示词:低角度镜头展示了一扇敞开的淡紫色大门,从一间有着浅紫色墙壁和灰色地板的房间通向一个生机勃勃的户外场景。茂盛的绿草和野花从门口蔓延到室内地板,在空间之间营造出一种奇妙的过渡。门外,连绵起伏的绿色山丘上点缀着更多的野花,绵延至明亮清澈的天空。一棵树矗立在户外场景的前景中,它的叶子为视野增添了深度。阳光和自然元素与室内空间的简约形成对比,引人产生奇妙和想要逃离的感觉。
Veo 3 目前在 Vertex AI 上提供私有预览版,并将在未来几周内更广泛地推出。如果您有兴趣抢先体验,请填写此表单。
Lyria 2:通过音乐生成实现更强大的创意控制
在 Google Cloud Next 2025 大会上,我们宣布了在 Vertex AI 中推出 Google 的文本转音乐模型 Lyria。我们宣布 Lyria 2 已在 Vertex AI 中正式发布。作为 Google 最新的音乐生成模型,Lyria 2 能够生成多种风格的高保真音乐。作为您下一个创意合作伙伴,Lyria 2 提供以下功能:
从文本提示词生成高品质音频内容
更好地控制乐器、BPM 和其他特征进行更强的创意控制
要开始使用 Lyria 2 创建内容,请查看 Vertex AI 上的 Media Studio。之后,您可以根据文本提示词生成音乐,或通过 Vertex AI 访问模型 API。想要获取灵感,请查看下面的一些音乐片段和提示词。
提示词:节奏明快、充满迷幻色彩的秘鲁坎比亚音乐(Peruvian Cumbia),用于洛杉矶拉丁音乐节现场演出。融合电吉他、贝斯,并突出使用定音鼓打击乐部分,营造出强劲有力、适合跳舞的氛围。充满活力和能量。
提示词:气势恢宏的管弦乐电影配乐,伦敦原生录音室录制,百人管弦乐队演绎,音乐风格气势恢宏,深邃。融合高亢的旋律、戏剧性的和声变化以及强劲的打击乐元素,乐器包括圆号、弦乐、定音鼓。并以主题性手法演绎,具有复杂的编曲、宽广的动态范围和深刻的情感,营造出电影般恢弘且令人敬畏的氛围。
看看我们的一些客户到目前为止对 Lyria 2 的评价:
Captions 是一款 AI 驱动的视频创作工具,可帮助用户快速轻松地创建工作室级别的有声视频。他们已将 Lyria 2 集成到 Mirage Edit 功能中,使用户能够快速生成带有自定义声音的完整视频。
“在 Captions,我们的 Mirage Edit 功能已经让订阅用户能够通过提示词便可生成经过完整编辑的 AI 有声视频,包括图像、B-roll(补充)片段、旁白和过渡效果。现在,我们又添加了一个关键元素:由 Google Lyria 2 提供支持的自适应音乐。只需一个提示词,Lyria 就能创作出与剧本、节奏和每个情绪节点的转场同步的配乐,这样我们的客户无需离开 Captions 或翻阅素材库,即可发布电影级短视频。”
——Captions.ai 的联合创始人兼首席运营官 Dwight Churchill 说道。
Dashverse 拥有 Dashtoon 和 DashReels 等数字内容平台,目前正在 Vertex AI 上利用 Google 的 Lyria 2,为下一代 AI 原生创作者提供先进的音乐生成功能。这种集成使用户能够创作动感十足、情感丰富的配乐,并与 DashReels 等平台上的内容叙事和节奏无缝衔接。
“在 Dashverse,我们始终致力于赋能日常创作者,无论他们是在 Dashtoon 上创作漫画,还还是在 DashReels 上制作短剧。我们通过 DashReels 向动态的、情感共鸣的叙事方式迈进,这需要一个同样富有表现力和响应能力的音乐引擎。Vertex AI 上的 Lyria 2 正好满足了这一点。它为我们的用户提供了对音乐的录音室级别控制,能够适应情感、场景和节奏,而且没有额外的开销。它不仅仅是一个音轨生成器;它更是一个叙事放大器。我们非常期待它能为下一代 AI 原生创作者解锁无限可能。”
——Soumyadeep Mukherjee,Dashverse 首席技术官
安全创作,负责任分享
任何 AI 生成内容的安全性和可靠性都至关重要。因此,这些模型都内置了安全保护措施,让您能够专注于创意工作。Veo 3、Imagen 4 和 Lyria 2 都与 Google DeepMind 合作,将安全性作为其核心设计原则。
水印:所有使用 Veo、Imagen 和 Lyria 生成的作品默认都使用 SynthID 技术,该技术将隐形水印直接嵌入到生成的输出中。此水印可以识别 AI 生成的媒体,确保透明度。
安全过滤器:所有生成式 AI 媒体模型的输入提示词和输出内容都可以通过安全过滤器列表进行访问。通过配置内容过滤的严格程度,您可以确保资产符合您的品牌价值观。在视觉输出数据中,您还可以控制人物的生成。
开始使用
您可以通过查看以下资源了解有关这些新模型的更多信息:
文章信息
相关推荐
精选内容

微信公众号
