调整建议在Google DataCloud上调整大小

时间:2016-08-23 21:54:04

标签: python apache-spark apache-spark-sql google-cloud-dataproc

我已经建立了一个由24个高内存CPU组成的集群(1个主站:8个vCPU和2个工作站:8个vCPU)。在第一张图片底部的推荐栏中,建议将主节点的大小调整为10个CPU,因此需要额外增加2个CPU,因为主节点过度使用。尽管如此,第一张图中的图表显示我的CPU利用率还没有超过12%。

Google DataProc Console

此外,当我转到VM Instances页面时,会提出另一个建议。建议将我的主节点从高内存节点调整为标准节点,如图2所示。因此,根据此建议,我应该缩小我的集群大小。

Rommendation on VM Instance Page

是否有人可以给我(逻辑)解释我应该做什么? 我的印象是我的主人和工人没有充分利用,因为通常不会使用大量的CPU电源。

1 个答案:

答案 0 :(得分:1)

不幸的是,如this related answer中所述,当您通过Google Compute Engine界面调整机器大小时,Dataproc目前还不支持对已经运行的Hadoop / Spark服务进行实时重新配置。 Dataproc经过优化,可以轻松运行短暂的集群,因此,快速的集群部署时间可以让您轻松地尝试其他集群形状或更新的Dataproc映像版本。

目前,要尝试新的机器尺寸,您应该使用新设置创建新的Dataproc群集。看看你的历史CPU使用率,我说只要CPU过度使用的短暂时期似乎没有引起任何问题,建议从8核到10核的升级可能不是足够强大的信号。当前正在运行的作业存在问题(一般情况下,Dataproc作业更可能"过度使用" CPU比例如Web前端实例,并且这并不一定意味着您实际上需要更多CPU)。

主推荐的内存降级似乎接近n1-standard-8,如果是我,我只是在下次部署群集时尝试使用n1-standard-8作为主节点而不是使用自定义机器类型进行细粒度处理。

如果您确实想尝试自定义计算机类型,则在使用gcloud命令行工具进行部署时,Dataproc会支持自定义计算机类型。 Here are the instructions用于在Dataproc命令中指定CPU / RAM的自定义组合。