我们正在尝试以集群模式运行Dataproc集群,但是没有这样做。我们已经尝试过属性--properties spark.submit.deployMode=cluster
,但失败了。
有人可以提供更多有关设置的信息吗?
谢谢。
答案 0 :(得分:1)
问题似乎是在集群创建期间设置spark:
属性时没有指定spark.submit.deployMode
前缀。
在Dataproc中,如果您在集群创建期间设置属性,则需要在属性之前加上要为其设置属性的组件,有关详细信息,请参见Dataproc cluster properties documentation。
此命令应可用于创建将以集群模式提交Spark作业的集群:
CLUSTER_NAME=<cluster_name>
gcloud dataproc clusters create ${CLUSTER_NAME} \
--properties=spark:spark.submit.deployMode=cluster
请注意,在集群模式下,Dataproc将无法在gcloud和Cloud Console中流式传输Spark驱动程序输出。