Question

我正在根据此desciption

在Azure上创建HDInsights群集

现在我想设置spark自定义参数，例如群集配置时spark.yarn.appMasterEnv.PYSPARK3_PYTHON或spark_daemon_memory。

是否可以使用数据工厂/自动化帐户进行设置？我找不到任何这样做的例子。

由于

Answer 1

您可以在Data Factory中使用SparkConfig将这些配置传递给Spark。

例如：

"typeProperties": {
...
  "sparkConfig": {
     "spark.submit.pyFiles": "/dist/package_name-1.0.0-py3.5.egg",
     "spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/bin/anaconda/envs/py35/bin/python3"
  }
}

这样您就可以指定docs here中列出的所有Spark配置。

如何使用Data Factory在HDInsights集群中设置自定义Spark参数

1 个答案: