似乎相同的节点也出现在死节点列表和实时节点列表中以及HDFS网页上。 如何摆脱这些“死”节点?
我刚刚将我们的480个节点集群上的Apache Hadoop从1.2.1升级到2.2.0。 一切都运作良好。块数,旧版本和新版本中的文件相同。 FSCK报告没有问题。
我有480个实时节点。奇怪的是,我在hdfs管理页面上显示了23个死节点。 不知何故,这些23个死节点也可以在实时节点列表中找到。它们在两个列表中都有相同的名称和ip(活动和死亡)。
hadoop dfs admin -report
我得到了结果:
Datanodes available: 480 (503 total, 23 dead)
这是报告中死节点的统计信息:
Configured Capacity: 0 (0 B)
DFS Used: 0 (0 B)
Non DFS Used: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used%: 100.00%
DFS Remaining%: 0.00%
Last contact: Thu Jan 01 01:00:00 CET 1970
我已经检查过,这23个节点上只运行了一个DataNode软件实例。 如果我也从死列表中存在的实时列表中停止一个datanode,那么在10分钟后,该节点在死列表中出现两次。 如果我再次启动datanode,节点将出现在实时列表中,但死信列表中仍然存在一个实例。 我检查了namenode日志,但没有发现任何错误。我也多次重启Hadoop。每次这些相同的23个节点出现在死列表中。
我现在看到问题是网络拓扑。我用过
./ hdfs dfsadmin -printTopology
命令,并意识到23个死节点也与/ default-rack和/ rack6相关联。我有480个节点的12个机架。
但我的网络拓扑解析器仍然运行良好,所以我无法理解为什么节点也与默认机架相关联。
答案 0 :(得分:0)
这是一个bug
https://issues.apache.org/jira/browse/HDFS-6180
查看你的" dfs.hosts"在hdfs-site.xml
答案 1 :(得分:0)
谢谢。 我们已将群集升级到Apache Hadoop 2.5,并且假死节点已消失。