我需要执行基于Yarn的Hadoop2集群的容量规划。
以下是我目前收到的与群集相关的输入。
- 每月需要摄取数据 100 TB
- 此数据量将逐渐增加,大约每月<5>%左右。
- 处理完摄取的数据后,保留期约为10天。
- 将使用Hadoop 2.x 。
- 客户不愿意迁移到基于云的环境,如AWS / Azure等。
醇>
我正在尝试通过关注以下几点来执行容量规划:
- 所需的数据节点总数
- CPU上NameNode的容量
侧面和记忆方面。
- 所需的每个DataNode的容量
CPU端和内存端。
- 需要EdgeNode的容量
CPU端和存储器端(考虑到事实
整个集群的网关,用于数据摄取。
- 正确的群集复制因子(3个或更少?任何指南?)
- 实施保留期为群集级别
如果有人对任何类型的Hadoop群集容量规划有任何经验,请分享您的经验/想法。
如果您需要进一步的输入,请告诉我。