如何在集群模式下运行dataproc集群?

时间:2020-02-24 06:14:38

标签: google-cloud-dataproc

我们正在尝试以集群模式运行Dataproc集群,但是没有这样做。我们已经尝试过属性--properties spark.submit.deployMode=cluster,但失败了。

有人可以提供更多有关设置的信息吗?

谢谢。

1 个答案:

答案 0 :(得分:1)

问题似乎是在集群创建期间设置spark:属性时没有指定spark.submit.deployMode前缀。

在Dataproc中,如果您在集群创建期间设置属性,则需要在属性之前加上要为其设置属性的组件,有关详细信息,请参见Dataproc cluster properties documentation

此命令应可用于创建将以集群模式提交Spark作业的集群:

CLUSTER_NAME=<cluster_name>
gcloud dataproc clusters create ${CLUSTER_NAME} \
  --properties=spark:spark.submit.deployMode=cluster

请注意,在集群模式下,Dataproc将无法在gcloud和Cloud Console中流式传输Spark驱动程序输出。