标签: apache-spark memory google-cloud-platform cpu google-cloud-dataproc
我对GCP完全陌生。是用户必须管理为驱动程序和工作程序分配的内存量以及在Dataproc群集中运行Spark作业的CPU数量吗?如果是,那么Dataproc使用弹性的方面是什么?
谢谢。
答案 0 :(得分:2)
通常您不需要,Dataproc集群的资源由YARN管理,Spark作业会自动配置为使用它们。特别是,默认情况下启用Spark dynamic allocation。但是您的应用程序代码仍然很重要,例如,您需要指定适当数量的分区。