我在GCP Dataproc群集上部署了Spark Scala作业。如何使用Web UI将配置文件作为参数传递给Spark Submit查询?
答案 0 :(得分:0)
我认为你的意思相当于在数据中心群集中运行的Spark作业所适用的注释here。为此,您必须覆盖数据堆集群中默认包含的spark-defaults.conf
文件。这必须在群集创建步骤中完成,但无法通过Web UI直接执行此操作。相反,您需要将新配置文件作为--properties
标志的值传递给gcloud dataproc clusters create
命令,如下所示:
gcloud dataproc clusters create $CLUSTER_NAME --properties=spark:spark.executor.extraJavaOptions=yourfile.conf
实际上您甚至不必自己开始编写gcloud
命令,您可以在控制台/ Web UI“创建群集”视图中填写所有内容,从底部单击“等效命令行”在页面中,添加--properties=...
部分和然后从shell运行它。
<强>更新强>
在上面的回答中,我专注于你想使用配置文件这一事实。但是,如果您确实希望通过作业级别的控制台编辑配置参数,则还可以通过提供key:value属性对来覆盖spark-defaults.conf
文件中的那些属性对。