应用错误收集

每月100 TB数据吞吐的Hadoop集群容量规划

时间：2016-06-21 09:03:48

标签： hadoop hadoop2

我需要执行基于Yarn的Hadoop2集群的容量规划。

以下是我目前收到的与群集相关的输入。

每月需要摄取数据 100 TB
此数据量将逐渐增加，大约每月<5>％左右。
处理完摄取的数据后，保留期约为10天。
将使用Hadoop 2.x 。
客户不愿意迁移到基于云的环境，如AWS / Azure等。

我正在尝试通过关注以下几点来执行容量规划：

所需的数据节点总数
CPU上NameNode的容量侧面和记忆方面。
所需的每个DataNode的容量 CPU端和内存端。
需要EdgeNode的容量 CPU端和存储器端（考虑到事实整个集群的网关，用于数据摄取。
正确的群集复制因子（3个或更少？任何指南？）
实施保留期为群集级别

如果有人对任何类型的Hadoop群集容量规划有任何经验，请分享您的经验/想法。如果您需要进一步的输入，请告诉我。

0 个答案:

没有答案