您是否将数据存储在 BigQuery 中并且有兴趣使用这些数据来训练和部署模型? 或者,您可能已经在 Vertex AI 中构建 ML 工作流,但希望对模型的预测进行更复杂的分析? 在这篇文章中,我们将向您展示 Vertex AI 和 BigQuery 之间的五种集成方式,以便您可以存储和提取数据; 构建、训练和部署您的 ML 模型; 并使用内置 MLOps 大规模管理模型,所有这些都一站式的在同一个平台内完成。 让我们开始吧!
2022 年 4 月更新:您现在可以使用 Vertex AI 模型注册表这个用于管理和治理 ML 模型生命周期的中央存储库,来注册和管理 BigQuery ML 模型。 这使您能够轻松地将 BigQuery ML 模型部署到 Vertex AI 从而进行实时预测。 在此视频中了解有关“使用 Vertex AI 在 BigQuery 中执行 ML Ops”的更多信息。
将 BigQuery 数据直接上传到 Vertex AI:
如果您使用的是 Google Cloud,那么您通常会将一些数据存储在 BigQuery 中。 当您准备好使用这些数据来训练 ML 模型时,您可以通过控制台中的几个步骤将 BigQuery 数据直接上传到 Vertex AI:
您也可以使用 Vertex AI SDK 执行此操作:
from google.cloud import aiplatform
dataset = aiplatform.TabularDataset.create(
display_name="my-tabular-dataset",
bq_source="bq://project.dataset.table_name",
)
访问 BigQuery 公共数据集
Vertex AI 和 BigQuery 之间的这种数据集集成意味着除了将您公司自己的 BigQuery 数据集连接到 Vertex AI 之外,您还可以利用 BigQuery 中的 200 多个公开可用的数据集来训练您自己的 ML 模型。 BigQuery 的公共数据集涵盖一系列主题,包括地理、人口普查、天气、体育、编程、医疗保健、新闻等。
您可以单独使用这些数据来试验 Vertex AI 中的训练模型,或增强您的已有数据。 例如,也许您正在构建需求预测模型,并发现天气会影响市场对您产品的需求; 您可以将 BigQuery 的公共天气数据集与您组织的销售数据相结合,以在 Vertex AI 中训练您的预测模型。
下面,您将看到一个导入去年的公共天气数据以训练天气预报模型的示例:
从 Vertex AI Workbench 笔记本访问 BigQuery 数据
数据科学家经常在笔记本环境中工作,以进行探索性数据分析、创建可视化和执行特征工程。 在 Vertex AI 的托管 Workbench 笔记本实例中,您可以使用 SQL 查询直接访问 BigQuery 数据,或将其下载为 Pandas Dataframe 以在 Python 中进行分析。
下面,您将看到如何在公共数据集 London Bikeshare 上运行 SQL 查询,然后将该查询的结果下载为 Pandas Dataframe 进而在笔记本中使用:
在 BigQuery 中分析测试预测数据
上文谈了如何使用 BigQuery 数据在 Vertex AI 中训练模型。 接下来,我们将看看 Vertex AI 和 BigQuery 之间用于导出模型预测的集成。
当您使用 AutoML 在 Vertex AI 中训练模型时,Vertex AI 会将您的数据拆分为训练、测试和验证集,并评估您的模型在测试数据上的表现。 您还可以选择将模型的测试预测导出到 BigQuery,以便更详细地分析它们:
然后,当训练完成时,您可以检查您的测试数据并对测试预测运行查询。 这有助于确定模型表现不佳的场景,这样您可以在下次训练模型时采取措施改进数据。
导出 Vertex AI 批量预测结果
当您拥有准备好在生产中使用的经过训练的模型时,有几个选项可用于使用 Vertex AI 对该模型进行预测:
将您的模型部署到端点以进行在线预测
导出模型资产以进行设备上预测
在您的模型上运行批量预测作业
对于您希望将大量示例发送到模型进行预测并且延迟不太重要的情况,批量预测是一个不错的选择。 在 Vertex AI 中创建批量预测时,您可以将 BigQuery 表指定为预测作业的源和目标:这意味着您将拥有一个 BigQuery 表,其中包含要进行预测的输入数据,在完成预测之后,Vertex AI 会将您的预测结果保存到另外的 BigQuery 表中。
通过上述的内置集成功能,您可以访问 BigQuery 数据,并构建和训练模型。 Vertex AI 可以帮助您实现:
将这些模型投入生产
使用托管管道来实现模型可重复性的自动化
随着时间的推移管理您的模型性能和可靠性
跟踪模型的血缘和构件以实现易于管理的治理能力
应用可解释性来评估特征属性
文章信息
相关推荐
