每次启动时,Data Bricks群集都会安装所有软件包

时间:2019-04-01 12:24:54

标签: databricks azure-databricks

我一直在使用Python / R研究Databricks笔记本。完成工作后,我们需要终止集群以节省相关成本。 (因为我们正在使用机器)。

因此,如果要在任何笔记本上工作,我们还必须启动集群。我已经看到需要花费很多时间,然后再次在群集中安装软件包。有什么办法可以避免在每次启动集群时进行安装?

enter image description here

2 个答案:

答案 0 :(得分:1)

不幸的是。

当您终止群集时,其内存状态将丢失,因此当您再次启动它时,它将带有一个干净的映像。即使将所需的软件包添加到初始化脚本中,也必须在每次初始化时安装它们。

您可以要求Databricks支持人员检查是否可以为您创建自定义群集映像。

答案 1 :(得分:0)

我正在使用 conda env 来安装软件包。第一次安装后,我将环境保存为 dbfs 中的 yaml 文件,并在所有其他运行中使用相同的 yaml 文件。这样我就不必再次安装软件包了。

将环境保存为 conda YAML 规范。

%conda env export -f /dbfs/filename.yml

使用 conda env update 将文件导入另一个笔记本。

%conda env update -f /dbfs/filename.yml

列出软件包 -

%conda list