Question

我对Hadoop Cluster数据节点故障转移有一些疑问：

1: What happen the link is down between the namenode and a datanode 
   (or between 2 datanodes) when the hadoop cluster is processing some data?
   Does Hadoop cluster have any OOTB to recover this problem?
2: What happen one datanode is down when the hadoop cluster is processing 
   some data?

另外，另一个问题是关于hadoop集群硬件配置。假设我们将使用我们的hadoop集群每天处理100GB日志文件，我们需要设置多少个datanode？对于每个datanode硬件配置（例如CPU，RAM，Hardisk）？

Answer 1

1：namenode和datanode之间的链接发生了什么（或者在2个数据节点之间）当hadoop集群处理一些数据时？ Hadoop集群是否有任何OOTB来恢复此问题？

NN不会从该节点收到任何心跳，因此认为它已经死亡。在这种情况下，在该节点上运行的任务将在具有该数据的某个其他节点上进行调度。

2：当hadoop集群正在处理时，一个datanode发生了什么一些数据？

与上述相同。

对于问题的第二部分：

这完全取决于您的数据以及您要执行的处理类型以及其他一些事项。首先，100G不适合MR处理。但是，如果您仍然需要它，任何体面的机器都足以处理100G数据。

作为拇指规则，您可以考虑：

RAM：每100万个HDFS块1G RAM +其他一些额外的东西。
CPU：完全基于您的需求。
磁盘：数据量的3倍（如果复制因子= 3）+临时文件，其他应用等内容的额外空间.BBOD更可取。

坦率地说，这个过程涉及的范围更广。我强烈建议您通过 this 链接以获得正确的想法。

我会从拥有5台机器的集群开始：

1 * Master（NN + JT） -

磁盘： JBOD配置中的3 * 1TB硬盘（1个用于操作系统，2个用于FS映像）

CPU： 2个四核CPU，运行至少2-2.5GHz

RAM： 32 GB的内存
3 *奴隶（DN + TT） -

磁盘： JBOD（只是一堆磁盘）配置中的3 * 2 TB硬盘

CPU： 2个四核CPU，运行至少2-2.5GHz

RAM： 16 GB的RAM
1 * SNN -

我会保持它与主机一样。

Answer 2

取决于namenode或datanode是否已关闭，job will be rewired to different计算机。 HDFS专门为此而设计。是的，它绝对是开箱即用的。
如果有更多可用的数据节点，则传输作业。

100GB是not large enough来证明使用hadoop是合理的。 Don't use hadoop unless you absolutely need to.

Hadoop群集故障转移

2 个答案: