与HDInsight Cluster相比的Databrick查询

时间:2019-11-14 00:52:55

标签: python azure databricks hdinsight azure-databricks

与HDInsight集群相比,我对Databricks实现的查询很少。

  1. 当前,HDInsight群集中的/ bin /中运行的Python文件很少。有没有一种方法可以将相同的python文件上传到Databricks中的/ bin。

    我正在考虑将Databricks中的/ FileStore / tables /与/ bin相同,并且已经上传了python 文件。

    很少有文件被执行,但是当有一个.sh脚本引用PATH = .: PATH时,它将 失败,说找不到脚本。

    当我在Databricks python笔记本中运行以下命令时,
    %sh PATH =“。:$ PATH”
    回声$ PATH
    它给出了../usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin

    但是我无法在Databricks中明确看到这些目录。

    我的想法是在bash脚本[dbfs / FileStore / tables]中明确定义路径,或者是否存在 更好的方法。

  2. 在bash脚本中,如何显式定义路径,其中实际脚本位于 数据块。

    在HDInsight群集中,当它使用PATH = .: PATH执行bash脚本时,它指向/ bin。

    Databricks中是否有一种方法可以做到这一点。

  3. 是否可以将上载选项更改为/ FileStore / tables以外的其他目录 Databricks默认使用哪个版本。

  4. 在Databricks中,有一种方法可以定义[例如ADLS / BLOB的安装点]安装/ FileStore / tables / 作为bin并将所有python文件上传到该路径。

1 个答案:

答案 0 :(得分:0)

  1. 您可以设置环境变量,可以从群集上运行的脚本访问这些环境变量。

    • 在群集配置页面上,单击高级选项 切换。

    • 点击火花标签。

    • 环境变量字段中设置环境变量。

enter image description here

  1. 您还可以使用Create cluster requestEdit cluster request Clusters API端点中的id字段来设置环境变量。

3&4。FileStore / jars是Databricks File System中的一个特殊文件夹,您可以在其中上载库。有关更多详细信息,请参见“ Databricks - Libraries”。

一旦将jar文件上传到FileStore / jars,则可以在init script.

中调用这些库

希望这会有所帮助。