我正在使用Spark Databricks集群,并希望添加自定义的Spark配置。
关于此有一个Databricks文档,但是我不知道应该如何以及如何进行更改。有人可以分享示例来配置Databricks集群吗?
有什么方法可以查看Databricks群集中Spark的默认配置。
答案 0 :(得分:0)
要微调Spark作业,可以在集群配置中提供自定义Spark configuration属性。
[OR]
使用Clusters API配置集群时,请在“创建集群请求”或“编辑集群请求”的spark_conf字段中设置Spark属性。
要为所有集群设置Spark属性,请创建一个全局初始化脚本:
%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
参考: Databricks - Spark Configuration
示例:您可以选择要测试的任何Spark配置,在这里我要指定“ spark.executor.memory 4g” ,并且自定义配置看起来像这个。
创建集群后,您可以查看自定义配置的结果。