我一直在使用Python / R研究Databricks笔记本。完成工作后,我们需要终止集群以节省相关成本。 (因为我们正在使用机器)。
因此,如果要在任何笔记本上工作,我们还必须启动集群。我已经看到需要花费很多时间,然后再次在群集中安装软件包。有什么办法可以避免在每次启动集群时进行安装?
答案 0 :(得分:1)
不幸的是。
当您终止群集时,其内存状态将丢失,因此当您再次启动它时,它将带有一个干净的映像。即使将所需的软件包添加到初始化脚本中,也必须在每次初始化时安装它们。
您可以要求Databricks支持人员检查是否可以为您创建自定义群集映像。
答案 1 :(得分:0)
我正在使用 conda env 来安装软件包。第一次安装后,我将环境保存为 dbfs 中的 yaml 文件,并在所有其他运行中使用相同的 yaml 文件。这样我就不必再次安装软件包了。
将环境保存为 conda YAML 规范。
%conda env export -f /dbfs/filename.yml
使用 conda env update 将文件导入另一个笔记本。
%conda env update -f /dbfs/filename.yml
列出软件包 -
%conda list