如何配置Azure Databricks以将VSTS用于源代码管理

时间:2018-06-02 23:30:02

标签: git azure azure-devops databricks continuous-delivery

我最近开始使用Azure Databricks并与在HDInsight上运行的Jupyter笔记本进行比较。我已经四处搜索并阅读文档,试图学习如何让ADBricks使用VSTS git进行源代码控制。但是,我还没有找到有效的解决方案。

我已经找到了使用其他git提供程序的说明,但我想清楚这不是这个用例的选项,所以请不要使用这些类型的响应。

HDInsight有类似的限制,但我可以通过ssh / rsync来解决,这很好,因为我正在部署到远程服务器,与构建相同,并且能够以相同的方式进行蓝/绿部署等建造会做。

对于ADBricks,按需群集是惊人的,但假设您正在“在群集上”开发笔记本电脑并且实际上您处于持续交付模式。对我来说这很好(除了不够充分,高延迟的笔记本电脑开发),但我仍需要定期自动获取代码到VSTS以保存状态/备份,就像一个好的编码器应该:)。

3 个答案:

答案 0 :(得分:3)

通常对于Azure Databricks中的完整CI / CD,我们使用工作区API将整个笔记本或目录从Databricks中拉出并推送到用户的本地计算机或生成服务器。 https://docs.azuredatabricks.net/api/latest/workspace.html

Databricks还具有一个CLI,该CLI利用工作区API来实现更简单,更高级的命令:https://docs.azuredatabricks.net/user-guide/dev-tools/databricks-cli.html

此工作流程如下所示: enter image description here

这是Databricks的博客,其中有更多详细信息:https://databricks.com/blog/2017/10/30/continuous-integration-continuous-delivery-databricks.html

答案 1 :(得分:2)

目前,Azure Databricks和VSTS git repo之间没有这样的连接。

但是有一个用户声音Add Git support for Visual Studio Team Services for Azure databricks表示连接,您可以投票并跟进。您可以在那里描述您的详细信息要求(例如版本控制笔记本,与VSTS CI和CD集成等)。

答案 2 :(得分:2)