我正在根据此desciption
在Azure上创建HDInsights群集现在我想设置spark自定义参数,例如 群集配置时spark.yarn.appMasterEnv.PYSPARK3_PYTHON或spark_daemon_memory。
是否可以使用数据工厂/自动化帐户进行设置?我找不到任何这样做的例子。
由于
答案 0 :(得分:3)
您可以在Data Factory中使用SparkConfig
将这些配置传递给Spark。
例如:
"typeProperties": {
...
"sparkConfig": {
"spark.submit.pyFiles": "/dist/package_name-1.0.0-py3.5.egg",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/bin/anaconda/envs/py35/bin/python3"
}
}
这样您就可以指定docs here中列出的所有Spark配置。