Question

我正在使用Spark Databricks集群，并希望添加自定义的Spark配置。
关于此有一个Databricks文档，但是我不知道应该如何以及如何进行更改。有人可以分享示例来配置Databricks集群吗？
有什么方法可以查看Databricks群集中Spark的默认配置。

Answer 1

要微调Spark作业，可以在集群配置中提供自定义Spark configuration属性。

在群集配置页面上，单击“高级选项”切换。
单击“火花”选项卡。

[OR]

使用Clusters API配置集群时，请在“创建集群请求”或“编辑集群请求”的spark_conf字段中设置Spark属性。

要为所有集群设置Spark属性，请创建一个全局初始化脚本：

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

参考： Databricks - Spark Configuration

示例：您可以选择要测试的任何Spark配置，在这里我要指定“ spark.executor.memory 4g” ，并且自定义配置看起来像这个。

创建集群后，您可以查看自定义配置的结果。

希望这会有所帮助。

Azure Databricks：如何在Databricks群集中添加Spark配置

1 个答案: