namenode ha故障转移时间

时间:2014-12-03 07:48:12

标签: hadoop hdfs high-availability failover

Namenode HA(NFS,QJM)在hadoop 2.x(HDFS-1623)中可用。它为Namenode提供了快速故障转移功能,但我无法找到多久从故障中恢复所需的任何描述。任何人都可以告诉我吗?


感谢您的回答。事实上,我想知道两个节点转换之间的时间(活动名称节点和备用名称节点)。你能告诉我多长时间吗?

4 个答案:

答案 0 :(得分:2)

以下是使用备用NameNode进行故障转移的一些合格时间示例:

  

60个节点集群,600万个块使用300TB原始存储,100K文件:30秒。因此,故障转移总时间为1-3分钟。

     

一个拥有2000万个块的200节点集群占用1PB原始存储和100万个文件:110秒。因此,总故障转移时间范围为2.5到4.5分钟。

     

对于中小型群集,冷故障转移只会慢30至120秒。

来自:http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/

答案 1 :(得分:1)

Hadoop:The Definitive Guide ,我相信这很容易理解,也非常直接。
故障转移和防护

  

从活动名称节点到备用数据库的转换由a管理   系统中的新实体称为故障转移控制器。故障转移   控制器是可插拔的,但第一个实现使用ZooKeeper   确保只有一个namenode处于活动状态。每个namenode运行一个   轻量级故障转移控制器进程,其工作是监视它   故障的名称节点(使用简单的心跳机制)和   如果namenode失败,则触发故障转移。

     

故障转移也可以由管理员手动启动   例如,例行维护的情况。这被称为优雅   故障转移,因为故障转移控制器有序排列   转换两个名称节点以切换角色。

     

如果是   然而,无法确定故障转移是不可能的   失败的namenode已停止运行。例如,慢速网络或   网络分区可以触发故障转移,即使是   以前活动的namenode仍在运行,并认为它仍然存在   活动的名称节点。 HA的实施不遗余力   确保阻止先前活动的namenode执行任何操作   损坏并导致腐败 - 一种称为击剑的方法。系统   采用一系列击剑机制,包括杀死   namenode的进程,撤消对共享存储的访问权限   目录(通常使用特定于供应商的NFS命令)和   通过远程管理命令禁用其网络端口。作为最后一个   求助,以前活动的名称节点可以用技术隔离   相反,图形上称为STONITH,或“射击另一个节点   head“,它强制使用特定的配电装置   关闭主机电源。

     

客户端库透明地处理客户端故障转移。该   最简单的实现使用客户端配置来控制   故障转移。 HDFS URI使用映射到a的逻辑主机名   一对namenode地址(在配置文件中)和客户端   库尝试每个名称节点地址,直到操作成功。

希望它有所帮助!

答案 2 :(得分:0)

  • 快速故障转移意味着不是恢复,而是故障转移到其他名称节点
  • Ha namenode配置了多个名称节点
  • 如果任何一个namenode失败,则其他namenode将变为活动状态。
  • 如果故障namenode再次启动意味着它将处于待机状态。

答案 3 :(得分:0)

  • 使用HA时,将运行多个namenode集群,但是journal节点将一次仅在单个名称节点上写入。因此,一个名称节点将处于活动状态,另一个名称将处于待机状态

  • 如果一个名称节点失败,则备用节点将转换为活动状态。它被称为从失败中恢复。