Azure Databricks:如何在Databricks群集中添加Spark配置

时间:2019-11-04 06:57:38

标签: apache-spark databricks azure-databricks

我正在使用Spark Databricks集群,并希望添加自定义的Spark配置。
关于此有一个Databricks文档,但是我不知道应该如何以及如何进行更改。有人可以分享示例来配置Databricks集群吗?
有什么方法可以查看Databricks群集中Spark的默认配置。

1 个答案:

答案 0 :(得分:0)

要微调Spark作业,可以在集群配置中提供自定义Spark configuration属性。

  1. 在群集配置页面上,单击“高级选项”切换。
  2. 单击“火花”选项卡。

enter image description here

[OR]

使用Clusters API配置集群时,请在“创建集群请求”或“编辑集群请求”的spark_conf字段中设置Spark属性。

要为所有集群设置Spark属性,请创建一个全局初始化脚本:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

参考: Databricks - Spark Configuration

示例:您可以选择要测试的任何Spark配置,在这里我要指定“ spark.executor.memory 4g” ,并且自定义配置看起来像这个。

enter image description here

创建集群后,您可以查看自定义配置的结果。

enter image description here 希望这会有所帮助。