Hadoop群集故障转移

时间:2013-09-17 22:47:15

标签: hadoop

我对Hadoop Cluster数据节点故障转移有一些疑问:

1: What happen the link is down between the namenode and a datanode 
   (or between 2 datanodes) when the hadoop cluster is processing some data?
   Does Hadoop cluster have any OOTB to recover this problem?
2: What happen one datanode is down when the hadoop cluster is processing 
   some data? 

另外,另一个问题是关于hadoop集群硬件配置。假设我们将使用我们的hadoop集群每天处理100GB日志文件,我们需要设置多少个datanode?对于每个datanode硬件配置(例如CPU,RAM,Hardisk)?

2 个答案:

答案 0 :(得分:2)

1:namenode和datanode之间的链接发生了什么    (或者在2个数据节点之间)当hadoop集群处理一些数据时?    Hadoop集群是否有任何OOTB来恢复此问题?

NN不会从该节点收到任何心跳,因此认为它已经死亡。在这种情况下,在该节点上运行的任务将在具有该数据的某个其他节点上进行调度。

2:当hadoop集群正在处理时,一个datanode发生了什么    一些数据?

与上述相同。

对于问题的第二部分:

这完全取决于您的数据以及您要执行的处理类型以及其他一些事项。首先,100G不适合MR处理。但是,如果您仍然需要它,任何体面的机器都足以处理100G数据。

作为拇指规则,您可以考虑:

  • RAM:每100万个HDFS块1G RAM +其他一些额外的东西。
  • CPU:完全基于您的需求。
  • 磁盘:数据量的3倍(如果复制因子= 3)+临时文件,其他应用等内容的额外空间.BBOD更可取。

坦率地说,这个过程涉及的范围更广。我强烈建议您通过 this 链接以获得正确的想法。

我会从拥有5台机器的集群开始:

  1. 1 * Master(NN + JT) -

    磁盘: JBOD配置中的3 * 1TB硬盘(1个用于操作系统,2个用于FS映像)

    CPU: 2个四核CPU,运行至少2-2.5GHz

    RAM: 32 GB的内存

  2. 3 *奴隶(DN + TT) -

    磁盘: JBOD(只是一堆磁盘)配置中的3 * 2 TB硬盘

    CPU: 2个四核CPU,运行至少2-2.5GHz

    RAM: 16 GB的RAM

  3. 1 * SNN -

    我会保持它与主机一样。

答案 1 :(得分:1)

  1. 取决于namenode或datanode是否已关闭,job will be rewired to different计算机。 HDFS专门为此而设计。是的,它绝对是开箱即用的。
  2. 如果有更多可用的数据节点,则传输作业。
  3. 100GB是not large enough来证明使用hadoop是合理的。 Don't use hadoop unless you absolutely need to.