企业应对变化的速度是成功驾驭未来的企业与落后企业之间的区别。仅仅回答“发生了什么”是不够的,企业现在需要知道“现在正在发生什么”和“可能发生什么”,并采取积极的应对措施。实时解决这些业务问题使您的团队能够快速响应不断变化的业务需求,并为您的最终客户提供及时、相关和令人愉快的体验。

我们构建了 Dataflow,以便您可以构建回答这些问题以及更多问题的数据平台。 Dataflow 是一个无操作、无服务器的数据处理平台,使您能够收集和丰富您的应用程序和用户生成的大量数据。

一些客户使用 Dataflow 实时处理数据,使其对您的业务用户有用且富有洞察力。其他人使用流分析参考模式将 ML 集成到数据流水线中。 许多客户还使用 Dataflow(使用 Dataflow 模板)将流式数据和批处理数据集成到数据湖中,以便他们的业务用户可以获得近乎实时的洞察力并推动决策。

无论用例是什么,Dataflow 的基于开放 API (Apache Beam) 的无操作、完全托管的平台都可以让用户极大地简化他们的数据架构并通过 ML 提供洞察力。

宣布推出 Dataflow Prime

我们很高兴地宣布推出 Dataflow Prime,这是一个基于无服务器、无运维、自动调整架构的新平台,易于注册、使用和操作。我们构建 Dataflow Prime 的目的是为大数据处理带来无与伦比的资源利用率和极致的操作简单性。

Dataflow Prime 以 Dataflow 为基础,通过资源利用和分布式诊断方面的创新为用户带来新的好处。 Dataflow 中的新功能显着减少了花费在基础设施规模调整和调整任务上的时间,以及诊断数据新鲜度问题所花费的时间。 Dataflow Prime 使您能够通过以下方式事半功倍:

  • 消除您在调整资源需求上花费的时间:垂直自动缩放(与水平自动缩放结合使用)意味着您不必花费数天时间来确定流水线的最佳资源配置。

  • 优化资源使用并节省成本:Right Fitting 是业界首创的技术,可以为数据流水线的每个阶段使用自定义资源配置,从而减少浪费。

  • 提高您的生产力:新的诊断工具可以更轻松地满足和维护业务服务水平目标 (SLO) 数据处理作业。

百思买等客户对 Dataflow Prime 提供急需的工具来大规模管理和诊断其数据流水线的新功能感到兴奋。

百思买高级工程总监 Ramesh Babu 表示:“有效扩展以完全自动化的方式处理不断变化的工作负载对于我们实现服务水平目标 (SLO) 至关重要。“Dataflow Prime 的智能诊断和自动调整功能不仅让我们能够做到这一点,而且还让我们能够更好地观察数据流水线的性能。”

用性和兼容性

Dataflow Prime 将于今年第三季度初推出预览版。我们已经构建了 Dataflow Prime,因此如果您是 Dataflow 的当前用户,只需设置一个标志,您就可以将现有的 Dataflow 作业带到 Dataflow Prime。 当前形式的 Dataflow 将继续可用并受支持,您可以在对您最有意义的时候迁移到 Dataflow Prime。

通过无服务器+自动调节提供无与伦比的资源利用率

Dataflow 已经包含许多自动调节功能。 Dataflow Prime 在此基础上构建,并通过以下新功能突破界限。

  • 垂直自动缩放根据利用率动态调节分配给每个工作节点的计算容量。垂直自动缩放检测用户的工作受到工作人员资源限制的情况,并自动为这些工作人员添加更多资源。垂直自动缩放与水平自动缩放协同工作,以无缝扩展工作人员以最好地满足流水线的需求。因此,不再需要数小时或数天的时间来确定完美的工作人员配置以最大限度地提高利用率。垂直自动缩放还可以提高工作的可靠性。例如,需要比可用内存更多内存的作业中途失败并出现内存不足错误。在这种情况下,垂直自动缩放会自动添加更多内存,以便作业可以完成执行。

  • 适配功能:流水线的每个阶段通常具有与其他阶段不同的资源需求。例如,流水线的一个阶段可能使用大型 ML 模型实现 ML 预测,因此,该阶段可能需要更大内存的工作节点。下一阶段可能会使用 GPU 进行图像处理。到目前为止,流水线中的所有工作节点都将拥有更高的内存和 GPU,或者他们都没有。流水线要么不得不浪费资源,要么遭受缓慢/停滞的工作负载。适配功能通过创建特定于阶段的资源池来解决这个问题,并针对每个阶段进行了优化。例如,处理图像的阶段获得 GPU,而进行 ML 评分的阶段获得更多内存。



这些新功能允许 Dataflow 将底层计算资源视为灵活的资源集合,可以水平和垂直扩展,并以非常精细的方式适合流水线的需求。这种自动适配基础设施解决了大规模数据处理中最具挑战性和劳动密集型的任务之一。

通过智能诊断提供极致的简单性

基于数十年来构建供 Google 自己使用的大数据处理系统,我们构建了一套新的大数据诊断和优化工具,可以快速轻松地查明数据流水线的问题。识别瓶颈和发现有问题的用户代码是一项非常具有挑战性的任务,即使对于在单个服务器中运行的单线程应用程序也是如此。当处理运行在数十或数百名工作人员上的数据并行流水线时,这将成为一个指数级的难题。为了应对这些挑战,Dataflow Prime 包含以下功能: 

  • 作业可视化工具允许用户查看他们的代码是如何在数十或数百名工作人员中执行的。热键和低效代码在阶段进度视图中显示为细长条,比以往更容易找到并行化瓶颈。该工具还按时间降序显示流水线每个阶段的步骤列表,这可以快速指示可以优化代码的位置。

  • 数据流水线:用户关心的最重要方面是满足业务 SLO。管理单个作业虽然是一项关键要求,但不允许用户专注于需要满足的业务需求和 SLO。为了解决这一需求,数据流水线将调度、监控、SLO 跟踪和其他管理功能带到了逻辑流水线级别,同时保持了在需要时管理特定作业的能力。



    • 智能建议:智能建议自动检测您的流水线中的问题并显示潜在的修复。例如,如果您的流水线遇到权限问题,智能推荐将检测您需要启用哪些 IAM 权限才能解除对您的工作的阻止。如果您在工作中使用效率低下的编码器,Smart Recommendations 将展示性能更高的编码器实现,从而帮助您节省成本。

    相关推荐