我最近开始使用Azure Databricks并与在HDInsight上运行的Jupyter笔记本进行比较。我已经四处搜索并阅读文档,试图学习如何让ADBricks使用VSTS git进行源代码控制。但是,我还没有找到有效的解决方案。
我已经找到了使用其他git提供程序的说明,但我想清楚这不是这个用例的选项,所以请不要使用这些类型的响应。
HDInsight有类似的限制,但我可以通过ssh / rsync来解决,这很好,因为我正在部署到远程服务器,与构建相同,并且能够以相同的方式进行蓝/绿部署等建造会做。对于ADBricks,按需群集是惊人的,但假设您正在“在群集上”开发笔记本电脑并且实际上您处于持续交付模式。对我来说这很好(除了不够充分,高延迟的笔记本电脑开发),但我仍需要定期自动获取代码到VSTS以保存状态/备份,就像一个好的编码器应该:)。
答案 0 :(得分:3)
通常对于Azure Databricks中的完整CI / CD,我们使用工作区API将整个笔记本或目录从Databricks中拉出并推送到用户的本地计算机或生成服务器。 https://docs.azuredatabricks.net/api/latest/workspace.html
Databricks还具有一个CLI,该CLI利用工作区API来实现更简单,更高级的命令:https://docs.azuredatabricks.net/user-guide/dev-tools/databricks-cli.html
这是Databricks的博客,其中有更多详细信息:https://databricks.com/blog/2017/10/30/continuous-integration-continuous-delivery-databricks.html
答案 1 :(得分:2)
目前,Azure Databricks和VSTS git repo之间没有这样的连接。
但是有一个用户声音Add Git support for Visual Studio Team Services for Azure databricks表示连接,您可以投票并跟进。您可以在那里描述您的详细信息要求(例如版本控制笔记本,与VSTS CI和CD集成等)。
答案 2 :(得分:2)
现在内置了对Azure DevOps(又名VSTS)的支持:
https://docs.azuredatabricks.net/user-guide/notebooks/azure-devops-services-version-control.html