Namenode HA(NFS,QJM)在hadoop 2.x(HDFS-1623)中可用。它为Namenode提供了快速故障转移功能,但我无法找到多久从故障中恢复所需的任何描述。任何人都可以告诉我吗?
感谢您的回答。事实上,我想知道两个节点转换之间的时间(活动名称节点和备用名称节点)。你能告诉我多长时间吗?
答案 0 :(得分:2)
以下是使用备用NameNode进行故障转移的一些合格时间示例:
60个节点集群,600万个块使用300TB原始存储,100K文件:30秒。因此,故障转移总时间为1-3分钟。
一个拥有2000万个块的200节点集群占用1PB原始存储和100万个文件:110秒。因此,总故障转移时间范围为2.5到4.5分钟。
对于中小型群集,冷故障转移只会慢30至120秒。
来自:http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/
答案 1 :(得分:1)
从 Hadoop:The Definitive Guide ,我相信这很容易理解,也非常直接。
故障转移和防护
从活动名称节点到备用数据库的转换由a管理 系统中的新实体称为故障转移控制器。故障转移 控制器是可插拔的,但第一个实现使用ZooKeeper 确保只有一个namenode处于活动状态。每个namenode运行一个 轻量级故障转移控制器进程,其工作是监视它 故障的名称节点(使用简单的心跳机制)和 如果namenode失败,则触发故障转移。
故障转移也可以由管理员手动启动 例如,例行维护的情况。这被称为优雅 故障转移,因为故障转移控制器有序排列 转换两个名称节点以切换角色。
如果是 然而,无法确定故障转移是不可能的 失败的namenode已停止运行。例如,慢速网络或 网络分区可以触发故障转移,即使是 以前活动的namenode仍在运行,并认为它仍然存在 活动的名称节点。 HA的实施不遗余力 确保阻止先前活动的namenode执行任何操作 损坏并导致腐败 - 一种称为击剑的方法。系统 采用一系列击剑机制,包括杀死 namenode的进程,撤消对共享存储的访问权限 目录(通常使用特定于供应商的NFS命令)和 通过远程管理命令禁用其网络端口。作为最后一个 求助,以前活动的名称节点可以用技术隔离 相反,图形上称为STONITH,或“射击另一个节点 head“,它强制使用特定的配电装置 关闭主机电源。
客户端库透明地处理客户端故障转移。该 最简单的实现使用客户端配置来控制 故障转移。 HDFS URI使用映射到a的逻辑主机名 一对namenode地址(在配置文件中)和客户端 库尝试每个名称节点地址,直到操作成功。
希望它有所帮助!
答案 2 :(得分:0)
答案 3 :(得分:0)
使用HA时,将运行多个namenode集群,但是journal节点将一次仅在单个名称节点上写入。因此,一个名称节点将处于活动状态,另一个名称将处于待机状态
如果一个名称节点失败,则备用节点将转换为活动状态。它被称为从失败中恢复。