通过requirements.txt维护Azure Databricks上的库/包

时间:2019-03-18 12:51:44

标签: python databricks azure-databricks

有很多很棒的文档,可以在azure数据块上按1比1的方式安装软件包,但没有一种等效的方法:

pip install -r requirements.txt

或完全使用需求文件。我正在管理一个相当大的库,并且希望有一个简单的过程,该过程允许在可能的情况下一次安装所有软件包/库!

3 个答案:

答案 0 :(得分:1)

您可以通过以下方式在笔记本中记下所有必需的Python库:

dbutils.library.installPyPI("torch")
dbutils.library.installPyPI("scikit-learn", version="1.19.1")
dbutils.library.installPyPI("azureml-sdk", extras="databricks")
dbutils.library.restartPython()  # Removes Python state, but some libraries might not work without calling this function

然后使用魔术命令%run /path/to/notebook_install_lib调用此笔记本。 详细阅读databricks doc

答案 1 :(得分:1)

Databricks 运行时 >= 7.1 支持:

%pip install -r /dbfs/requirements.txt

Link to documentation.

答案 2 :(得分:0)

要使第三方或本地构建的代码可用于群集上运行的执行环境,可以在群集上安装库。库可以用Python,Java,Scala和R编写。您可以上载Java,Scala和Python库,并指向PyPI,Maven和CRAN存储库中的外部包。

您可以使用UI,CLI以及调用Libraries API来管理库。

有关其他方法,请参见Databricks CLILibraries API

在Databricks Runtime 5.1及更高版本中,您还可以使用Library utilities将Python库直接安装到笔记本会话中。因为即使所有笔记本在同一群集上运行,也可以确保安装在笔记本中的库不会干扰安装在其他任何笔记本中的库,所以Databricks建议您尽可能使用此方法。

请参考Create Workspace Library来创建库。这很容易。

下面,您可以在同一页面上找到完整的文档

https://docs.databricks.com/user-guide/libraries.html

希望有帮助。