每月100 TB数据吞吐的Hadoop集群容量规划

时间:2016-06-21 09:03:48

标签: hadoop hadoop2

我需要执行基于Yarn的Hadoop2集群的容量规划。

以下是我目前收到的与群集相关的输入。

  1. 每月需要摄取数据 100 TB
  2. 此数据量将逐渐增加,大约每月<5>%左右。
  3. 处理完摄取的数据后,保留期约为10天。
  4. 将使用Hadoop 2.x
  5. 客户不愿意迁移到基于云的环境,如AWS / Azure等。
  6. 我正在尝试通过关注以下几点来执行容量规划:

    • 所需的数据节点总数
    • CPU上NameNode的容量 侧面和记忆方面。
    • 所需的每个DataNode的容量 CPU端和内存端。
    • 需要EdgeNode的容量 CPU端和存储器端(考虑到事实 整个集群的网关,用于数据摄取。
    • 正确的群集复制因子(3个或更少?任何指南?)
    • 实施保留期为群集级别

    如果有人对任何类型的Hadoop群集容量规划有任何经验,请分享您的经验/想法。 如果您需要进一步的输入,请告诉我。

0 个答案:

没有答案