如何使用Data Factory在HDInsights集群中设置自定义Spark参数

时间:2017-10-18 15:43:39

标签: azure apache-spark hdinsight azure-data-factory

我正在根据此desciption

在Azure上创建HDInsights群集

现在我想设置spark自定义参数,例如 群集配置时spark.yarn.appMasterEnv.PYSPARK3_PYTHON或spark_daemon_memory。

是否可以使用数据工厂/自动化帐户进行设置?我找不到任何这样做的例子。

由于

1 个答案:

答案 0 :(得分:3)

您可以在Data Factory中使用SparkConfig将这些配置传递给Spark。

例如:

"typeProperties": {
...
  "sparkConfig": {
     "spark.submit.pyFiles": "/dist/package_name-1.0.0-py3.5.egg",
     "spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/bin/anaconda/envs/py35/bin/python3"
  }
}

这样您就可以指定docs here中列出的所有Spark配置。