如何在Google Cloud Platform Spark Scala作业中传递配置文件参数?

时间:2018-04-23 10:54:25

标签: google-cloud-platform google-cloud-dataproc

我在GCP Dataproc群集上部署了Spark Scala作业。如何使用Web UI将配置文件作为参数传递给Spark Submit查询?

1 个答案:

答案 0 :(得分:0)

我认为你的意思相当于在数据中心群集中运行的Spark作业所适用的注释here。为此,您必须覆盖数据堆集群中默认包含的spark-defaults.conf文件。这必须在群集创建步骤中完成,但无法通过Web UI直接执行此操作。相反,您需要将新配置文件作为--properties标志的值传递给gcloud dataproc clusters create命令,如下所示:

gcloud dataproc clusters create $CLUSTER_NAME --properties=spark:spark.executor.extraJavaOptions=yourfile.conf

实际上您甚至不必自己开始编写gcloud命令,您可以在控制台/ Web UI“创建群集”视图中填写所有内容,从底部单击“等效命令行”在页面中,添加--properties=...部分和然后从shell运行它。

<强>更新

在上面的回答中,我专注于你想使用配置文件这一事实。但是,如果您确实希望通过作业级别的控制台编辑配置参数,则还可以通过提供key:value属性对来覆盖spark-defaults.conf文件中的那些属性对。enter image description here