如何确定群集大小和要在HDFS中使用的实例类型?

时间:2018-07-30 13:57:35

标签: hadoop hdfs

如何确定HDFS中每台计算机的群集大小,节点数,要使用的实例类型以及硬件配置设置?如果可能,请说明如何完成10 TB的数据。 例如如果我们有10 TB的数据,那么在hadoop中可以使用的标准群集大小,节点数和实例类型是什么?

1 个答案:

答案 0 :(得分:0)

我已经使用Hadoop几年了。首先,请查看此Hortonworks指南: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html

一些个人笔记:

  • 最低限度,取决于3的复制因子,您需要大约50TB(10x3 = 30TB 80%规则:40TB可用,这使您可以使用8TB)-因此5个10FS的HDFS节点
  • HDFS最多只能使用总群集空间的80%
  • 更多节点=更快的YARN作业
  • Hive&PIG可以读取压缩数据,就像未压缩一样
  • 我个人将从5个节点开始,为3个动物园管理员定额,并为2个分配NameNodes。
  • 所有这些都可以设置为DataNodes

  • 别忘了使用Ambari服务器,并使其成为VM ...您每天将需要备份和快照

  • 升级/更新可能会炸毁东西,如果工作失败,请务必制定计划
  • 有时最基本的安装未按计划进行;)
  • 从小规模开始,向外扩展! Hadoop建立在这种思维方式上!

TLDR: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/conclusion.html

5个10TB的HDFS节点