我可以在群集模式下运行数据业务作业

时间:2018-04-05 18:05:28

标签: google-cloud-dataproc

刚开始熟悉GCP数据流。我注意到,当我使用const obj = new C1('aaa', 'bbb'); 时,gcloud dataproc jobs submit pyspark提交了作业。 spark.submit.deployMode=client是我们的选择吗?

2 个答案:

答案 0 :(得分:4)

是的,您可以指定--properties spark.submit.deployMode=cluster。请注意,驱动程序输出将在yarn用户日志中(您可以从控制台的Stackdriver日志记录中访问它们)。我们默认以客户端模式运行,以向您输出驱动程序输出。

答案 1 :(得分:0)

Found here 隐藏在 Google 的操作说明中:

<块引用>

默认情况下,Dataproc 在客户端模式下运行 Spark 作业,并流式传输驱动程序输出以供查看,如下所述。但是,如果用户通过将集群属性设置为 --properties 创建 Dataproc 集群: spark:spark.submit.deployMode=cluster 或通过将作业属性设置为 --properties spark.submit.deployMode 以集群模式提交作业=cluster,驱动输出列在 YARN 用户日志中,可以在 Logging 中访问。

但是,使用集群模式进行部署和以集群模式提交作业之间的区别并不完全清楚。我必须运行一个实验,但我可能认为如果您在客户端模式下启动集群,我会看到执行器日志被流式传输到控制台输出(与驱动程序日志一起收集)。如果您在集群模式下启动它,那么在作业控制台中只能查看驱动程序日志。如果您在集群模式下部署作业,则不会将任何内容发送到作业控制台,您必须从 DataProc 将 YARN 容器日志转储到的任何位置获取日志(同样,必须配置某些内容)