Google Cloud 结果

  • AI 技术提高了教学视频制作的生产率,从手工逐条制作到软件批量生成,手工制作需要花费数天的时间,利用 AI 技术可以 5 分钟生成丰富的学习材料

  • 减轻了教学视频的制作难度,降低了制作人员的学习门槛,普通人也可以很学会使用

  • 利用 Gemini 1.5 Flash 生成教学视频脚本,Vertex AI Imagen 根据脚本文字来生成图片

  • MediaPipe 开源框架对图片进一步处理,生成视障儿童视觉友好的图案

  • Text-to-Speech 根据脚本文字生成配音

通过利用 Google Cloud AI 技术,Google 的志愿者们在跟爱百福的合作过程中开发了一个教学视频制作平台“慧眼识教”,专门制作针对视障儿童的教学视频,利用该平台可以大大提高教学视频的制作效率。这些视频很好地帮助了视障儿童来学习和认知世界,在实际应用中获得了非常好的反馈。

北京爱百福视障人士关爱中心(Bethel China)是一个专门从事视障儿童救助和早期教育的民办非营利性机构,专门为具有视力障碍的儿童提供特殊教育培训,通过动作、语言等方面的训练来帮助视障儿童克服由于视觉阻碍而引起的惧怕走路、语言迟缓、精细动作和大动作发育迟缓等各种问题,从而培养他们的生活自理和学习能力。

Google 是一家非常有社会责任感的高科技企业,他们有一个经常性的社会活动项目 Google Serve,每年都在 Google 内部招募志愿者,来帮助外部的 NGO(非政府组织 Non-Governmental Organization)合作伙伴去解决他们的各种问题,爱百福就是 Google 众多 NGO 合作伙伴中的一家。

Google Serve 志愿者为视障儿童制作教学视频

在跟爱百福合作的过程中,Google 志愿者们通过跟视障儿童近距离的接触,发现在这些孩子的眼中,看清世界是那么的困难,他们看不清站在面前的志愿者们,只能感受到一个模糊的影子。但是,令志愿者们感到意外和感动的是,这些生理上的障碍,并没有阻止儿童们探索世界的好奇心。爱百福为这些儿童专门准备了一些特殊的教学材料和工具(例如:布书),这些教具在正常人看起来非常简单,却激发了儿童们的求知热情,对于孩子们的生活和学习能力培养有着很大的帮助。

通过调查研究,志愿者们发现现有的学习材料对于视障儿童的视觉认知能力并不友好,不能帮助他们从中顺利地获得有效信息。儿童们仅存的一些微弱视力只能分辨对比度强烈的颜色、形状等,但是现有学习材料中的复杂场景和颜色组合给孩子的视觉认知带来了太多的困难,无法让他们进行有效的学习。

为了能让他们有更好的学习体验,志愿者们决定从开发视障儿童专用的教学材料入手,来帮助他们克服视觉上的认知障碍。Google 招募了 40 多名志愿者,用剪辑软件制作了几十条视障儿童友好的教学视频,教他们认识诸如动物、工具、水果、形状等基础概念。这些视频打开了孩子们新世界的学习之窗,获得了很好的反馈,得到孩子们的认可,坚定了志愿者们进一步帮助他们持续学习和探索的决心。

慧眼识教:AI 点亮视障儿童的学习之路

在项目开始的时候,志愿者们是通过剪辑软件来手工制作教学视频的,如果有新的志愿者加入的话,还要从头学习视频剪辑工具。这样的方式人力成本高,缺乏灵活性,视频产量也低。于是,志愿者们就萌生出了利用 Google Cloud AI 技术来自动生成教学视频的想法。

首先,志愿者们利用 Gemini 1.5 Flash 来生成教学视频的脚本,只需要输入关于教学内容的主题提示,Gemini 就会自动生成脚本文字。Gemini 1.5 Flash 具有低延迟和高性价比的特色,利用它的多模态能力,可以很好地生成出适合视障儿童教学的视频脚本文字。

接下来就是把生成的脚本文字提供给 Vertex AI 上的图片生成器 Imagen,通过它的文生图能力来生成包含教学内容的图片;另一种方法是在互联网上寻找适合的图片,但是一般需要解决版权问题,相比之下,使用 AI 来成图片更加便捷一些。这时候得到的还只是原始图片,志愿者们使用 Google 开发并开源的 MediaPipe 框架,对复杂的图片进行处理,把图片中的物体从背景中分离出来。然后通过把背景变成全黑或全白,再描上红边或白边,让物体更加突出,从而将图片和文字变为对孩子们视觉友好的内容。志愿者们使用 MediaPipe 在设备端进行的开发和部署,在很低的成本下处理了大批量的图片。

最后,志愿者们用 Text-to-Speech 文本转语音技术为每条视频生成了配音,然后把所有准备好的图片和配音来合成最终的教学视频。

为了便于普通人的使用,志愿者们把上面提到的这些功能整合在一个“慧眼识教(VisAid Learn)”平台中,通过上述的多个 Google AI 智能体协作,来高效地为视障儿童生成教学视频。这个平台通过网页来访问,使用者不需要去学习视频编辑软件的使用,只需要提供一些简单的文字提示或图片,就能完成教学视频的制作,大大提高了视频制作的效率和灵活性。这个平台不仅仅提高了 Google 志愿者们的工作效率,也可以供爱百福的员工或孩子家长来使用,学习门槛非常低,普通人经过简单的培训就可以来制作教学视频。

有了 AI 技术的助力,志愿者们高效批量生产了很多主题丰富、图文并茂、带有声音讲解的教学视频,大大提升了视障儿童的学习效果。看到孩子们沉浸在这些学习视频中,开心积极地探索着未知世界,这是对志愿者们辛勤付出的最大鼓励和安慰。虽然上帝没有让这些孩子拥有清晰明亮的双眼,但AI技术帮助他们看到了丰富多彩的世界。

整合全球信息,使人人皆可访问并从中受益

从爱百福的使用效果上,“慧眼识教”获得了非常好的反馈。接下来,Google 志愿者会与爱百福进一步来帮助更多的视障儿童,他们将联合 15 家盲校以及特殊教育学校,使用“慧眼识教”产品来帮助超过 2000 名视障儿童,为他们打开新的学习之路。此外爱百福计划将“慧眼识教”分享给来自印度、菲律宾、马来西亚的多家机构,来帮助全球的视障儿童。

Google 的使命是整合全球信息,使人人皆可访问并从中受益。“慧眼识教”就是实践这一理念的一个例子,Google 志愿者们也将继续努力,用 AI 科技让更多视障儿童看到更美好的世界。

相关推荐