GCP Dataproc:Spark作业的CPU和内存

时间:2019-08-21 15:39:00

标签: apache-spark memory google-cloud-platform cpu google-cloud-dataproc

我对GCP完全陌生。是用户必须管理为驱动程序和工作程序分配的内存量以及在Dataproc群集中运行Spark作业的CPU数量吗?如果是,那么Dataproc使用弹性的方面是什么?

谢谢。

1 个答案:

答案 0 :(得分:2)

通常您不需要,Dataproc集群的资源由YARN管理,Spark作业会自动配置为使用它们。特别是,默认情况下启用Spark dynamic allocation。但是您的应用程序代码仍然很重要,例如,您需要指定适当数量的分区。