应用错误收集

namenode ha故障转移时间

时间：2014-12-03 07:48:12

标签： hadoop hdfs high-availability failover

Namenode HA（NFS，QJM）在hadoop 2.x（HDFS-1623）中可用。它为Namenode提供了快速故障转移功能，但我无法找到多久从故障中恢复所需的任何描述。任何人都可以告诉我吗？

感谢您的回答。事实上，我想知道两个节点转换之间的时间（活动名称节点和备用名称节点）。你能告诉我多长时间吗？

4 个答案:

答案 0 :(得分：2)

以下是使用备用NameNode进行故障转移的一些合格时间示例：

60个节点集群，600万个块使用300TB原始存储，100K文件：30秒。因此，故障转移总时间为1-3分钟。

一个拥有2000万个块的200节点集群占用1PB原始存储和100万个文件：110秒。因此，总故障转移时间范围为2.5到4.5分钟。

对于中小型群集，冷故障转移只会慢30至120秒。

来自：http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/

答案 1 :(得分：1)

从 Hadoop：The Definitive Guide ，我相信这很容易理解，也非常直接。
故障转移和防护

从活动名称节点到备用数据库的转换由a管理   系统中的新实体称为故障转移控制器。故障转移   控制器是可插拔的，但第一个实现使用ZooKeeper   确保只有一个namenode处于活动状态。每个namenode运行一个   轻量级故障转移控制器进程，其工作是监视它   故障的名称节点（使用简单的心跳机制）和   如果namenode失败，则触发故障转移。

故障转移也可以由管理员手动启动   例如，例行维护的情况。这被称为优雅   故障转移，因为故障转移控制器有序排列   转换两个名称节点以切换角色。

如果是   然而，无法确定故障转移是不可能的   失败的namenode已停止运行。例如，慢速网络或   网络分区可以触发故障转移，即使是   以前活动的namenode仍在运行，并认为它仍然存在   活动的名称节点。 HA的实施不遗余力   确保阻止先前活动的namenode执行任何操作   损坏并导致腐败 - 一种称为击剑的方法。系统   采用一系列击剑机制，包括杀死   namenode的进程，撤消对共享存储的访问权限   目录（通常使用特定于供应商的NFS命令）和   通过远程管理命令禁用其网络端口。作为最后一个   求助，以前活动的名称节点可以用技术隔离   相反，图形上称为STONITH，或“射击另一个节点   head“，它强制使用特定的配电装置   关闭主机电源。

客户端库透明地处理客户端故障转移。该   最简单的实现使用客户端配置来控制   故障转移。 HDFS URI使用映射到a的逻辑主机名   一对namenode地址（在配置文件中）和客户端   库尝试每个名称节点地址，直到操作成功。

希望它有所帮助！

答案 2 :(得分：0)

快速故障转移意味着不是恢复，而是故障转移到其他名称节点
Ha namenode配置了多个名称节点
如果任何一个namenode失败，则其他namenode将变为活动状态。
如果故障namenode再次启动意味着它将处于待机状态。

答案 3 :(得分：0)

使用HA时，将运行多个namenode集群，但是journal节点将一次仅在单个名称节点上写入。因此，一个名称节点将处于活动状态，另一个名称将处于待机状态
如果一个名称节点失败，则备用节点将转换为活动状态。它被称为从失败中恢复。