如何在数据块中设置环境变量?

时间:2019-07-02 15:44:10

标签: apache-spark environment-variables databricks

一个简单的问题,但是我找不到关于如何在Databricks中设置环境变量的简单指南。另外,在驱动程序和执行程序上都设置环境变量是否很重要(您是否可以通过spark.conf进行设置)?谢谢

1 个答案:

答案 0 :(得分:0)

创建之前:

您可以在创建集群时设置环境变量。

点击高级选项 =>输入环境变量

enter image description here

创建后:

选择您的集群 =>单击编辑 => 高级选项 =>编辑或输入新的环境变量 => 确认并重新启动

enter image description here

OR

可以通过将环境变量声明附加到文件/databricks/spark/conf/spark-env.sh来获得所需的结果。您可以按如下方式更改init文件:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

有关更多详细信息,请参阅“ Databricks – Spark Configuration”。

希望这会有所帮助。