与HDInsight集群相比,我对Databricks实现的查询很少。
当前,HDInsight群集中的/ bin /中运行的Python文件很少。有没有一种方法可以将相同的python文件上传到Databricks中的/ bin。
我正在考虑将Databricks中的/ FileStore / tables /与/ bin相同,并且已经上传了python 文件。
很少有文件被执行,但是当有一个.sh脚本引用PATH = .: PATH时,它将 失败,说找不到脚本。
当我在Databricks python笔记本中运行以下命令时,
%sh PATH =“。:$ PATH”
回声$ PATH
它给出了../usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin
但是我无法在Databricks中明确看到这些目录。
我的想法是在bash脚本[dbfs / FileStore / tables]中明确定义路径,或者是否存在 更好的方法。
在bash脚本中,如何显式定义路径,其中实际脚本位于 数据块。
在HDInsight群集中,当它使用PATH = .: PATH执行bash脚本时,它指向/ bin。
Databricks中是否有一种方法可以做到这一点。
是否可以将上载选项更改为/ FileStore / tables以外的其他目录 Databricks默认使用哪个版本。
在Databricks中,有一种方法可以定义[例如ADLS / BLOB的安装点]安装/ FileStore / tables / 作为bin并将所有python文件上传到该路径。
答案 0 :(得分:0)
您可以设置环境变量,可以从群集上运行的脚本访问这些环境变量。
在群集配置页面上,单击高级选项 切换。
点击火花标签。
在环境变量字段中设置环境变量。
id
字段来设置环境变量。3&4。FileStore / jars是Databricks File System中的一个特殊文件夹,您可以在其中上载库。有关更多详细信息,请参见“ Databricks - Libraries”。
一旦将jar文件上传到FileStore / jars,则可以在init script.
中调用这些库希望这会有所帮助。