Dataproc主节点配置

时间:2018-07-03 07:38:10

标签: apache-spark google-cloud-dataproc

我想知道火花的主节点应该有多好。(机器类型)我见过很多人在谈论工作节点和执行者核心/实例,但是找不到关于主节点的任何建议。我正在群集模式下运行应用程序。有什么建议吗?

1 个答案:

答案 0 :(得分:0)

这实际上取决于群集的大小。 nanemode保留文件系统中所有文件的目录树,并跟踪文件数据在整个群集中的保留位置。

因此,如果您有大型群集,则需要使用具有更多内存的主服务器。

例如,如果群集中有大约500台i3.8xlarge机器,则可以将i3.8xlarge盒作为主服务器。但是,如果您有大约1000多个这样的设备,则确实需要使用R4内存优化主节点。

如果您的集群相对较小,则主节点确实无关紧要。如果您正在集群模式下运行spark作业,spark驱动程序将从任何核心节点而不是主节点启动。因此,就火花而言,主节点并不重要。但是,用于管理大型群集的主节点需要更大。