如何在Databricks自动化群集上安装库

时间:2020-08-20 12:33:34

标签: databricks azure-databricks

我正在Databricks自动化集群上运行作业,但是该作业继续失败,因为它需要以下库:

com.microsoft.azure:azure-sqldb-spark:1.0.2

但是,集群需要运行才能安装库,但是集群将永远无法运行,因为它会失败……出现catch 22情况。

因此,有人可以让我知道如何在Databricks自动化集群上安装库

enter image description here

从图像中可以看到,没有选择添加任何库

1 个答案:

答案 0 :(得分:2)

可以在“作业”设置中将软件包/库作为依赖项加载。

以下是在自动集群中加载依赖项的步骤。

第一步:从maven存储库下载库。

示例:我已经从Maven存储库下载了(com.microsoft.azure:azure-sqldb-spark:1.0.2)jar文件。

enter image description here

第二步::将库上传到Databricks工作区。

转到工作区 => 创建 => => 上传先前下载的jar文件=>点击创建

现在您的工作区中有jar文件。

enter image description here

第3步::转到创建的作业,将库添加为作业的从属库。

转到创建的工作 => 单击相关库:添加 => 选择库,该库在工作区中可用=>点击确定

enter image description here