部署机器学习模型-数据版本控制

时间:2020-07-14 13:33:16

标签: machine-learning deployment azure-devops

假设我们在Microsoft Azure上托管的存储库的主分支上具有发布管道。在此分支上完成“拉取请求”后,将自动构建人工制品。单击人工制品时,我们会看到一个“来源”窗口,其中显示了用于发布人工制品的代码的确切提交(请参见下图)。 enter image description here

现在假设人工制品不仅使用代码构建,而且还使用一些繁重的数据。使用训练代码和训练数据创建的机器学习模型就是这种情况。我希望能够将两者的版本链接到理想情况下的工件(机器学习模型),理想情况下,该工件是在母版上进行PR后自动创建的。

当前,我手动上传人工制品,因此不仅缺少用于生成ML模型的数据的标识符,而且缺少代码的提交ID。

Azure上是否有一种方法可以自动生成(较重的)人工制品?有没有办法跟踪代码的ID,这些ID用于生成伪像? 我想我需要一个数据版本控制系统和一个存储。这些是Azure提供的吗?

1 个答案:

答案 0 :(得分:0)

Azure上是否有一种方法可以自动生成(较重的)人工制品?有没有办法跟踪代码的ID和用于生成伪像的数据?我想我需要一个数据版本控制系统和一个存储。这些是Azure提供的吗?

如果我理解的正确,您可以尝试使用通用软件包将这些json文件打包为工件。

作为测试,我们可以使用“通用软件包”任务来创建和发布工件:

enter image description here

构建完成后,我们可以在供稿中获取工件:

enter image description here

您可以查看此文档Publish and download Universal Packages in Azure PipelinesUniversal packages with Azure DevOps Artifacts以获得一些详细信息。