Question

似乎相同的节点也出现在死节点列表和实时节点列表中以及HDFS网页上。如何摆脱这些“死”节点？

我刚刚将我们的480个节点集群上的Apache Hadoop从1.2.1升级到2.2.0。一切都运作良好。块数，旧版本和新版本中的文件相同。 FSCK报告没有问题。

我有480个实时节点。奇怪的是，我在hdfs管理页面上显示了23个死节点。不知何故，这些23个死节点也可以在实时节点列表中找到。它们在两个列表中都有相同的名称和ip（活动和死亡）。

hadoop dfs admin -report我得到了结果：

Datanodes available: 480 (503 total, 23 dead)

这是报告中死节点的统计信息：

Configured Capacity: 0 (0 B)
DFS Used: 0 (0 B)
Non DFS Used: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used%: 100.00%
DFS Remaining%: 0.00%
Last contact: Thu Jan 01 01:00:00 CET 1970

我已经检查过，这23个节点上只运行了一个DataNode软件实例。如果我也从死列表中存在的实时列表中停止一个datanode，那么在10分钟后，该节点在死列表中出现两次。如果我再次启动datanode，节点将出现在实时列表中，但死信列表中仍然存在一个实例。我检查了namenode日志，但没有发现任何错误。我也多次重启Hadoop。每次这些相同的23个节点出现在死列表中。

我现在看到问题是网络拓扑。我用过

./ hdfs dfsadmin -printTopology

命令，并意识到23个死节点也与/ default-rack和/ rack6相关联。我有480个节点的12个机架。

但我的网络拓扑解析器仍然运行良好，所以我无法理解为什么节点也与默认机架相关联。

Answer 1

这是一个bug https://issues.apache.org/jira/browse/HDFS-6180
查看你的＆＃34; dfs.hosts＆＃34;在hdfs-site.xml

中

Answer 2

谢谢。我们已将群集升级到Apache Hadoop 2.5，并且假死节点已消失。

Hadoop 2.2中的死节点和实时节点列表中的相同节点

2 个答案: