Question

我正在使用hadoop 1.2.1运行Map / Reduce任务。

在运行繁重的MR任务时，我遇到了数据节点故障。日志消息如下：

2017-01-24 21:55:41,735 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.net.BindException: Problem binding to /0.0.0.0:50020 : 
        at org.apache.hadoop.ipc.Server.bind(Server.java:267)
        at org.apache.hadoop.ipc.Server$Listener.<init>(Server.java:341)
        at org.apache.hadoop.ipc.Server.<init>(Server.java:1539)
        at org.apache.hadoop.ipc.RPC$Server.<init>(RPC.java:569)
        at org.apache.hadoop.ipc.RPC.getServer(RPC.java:530)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:554)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:321)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1712)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:1651)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1669)                                                                                                                                                         at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:1795)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1812)
Caused by: java.net.BindException: 
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:433)
        at sun.nio.ch.Net.bind(Net.java:425)                                                                                                                                                                                                          at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:223)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
        at org.apache.hadoop.ipc.Server.bind(Server.java:265)
        ... 11 more

我想，在数据节点发生故障后，它尝试重新启动但失败了。

如何才能正常重启？这样整个MR任务都不会受到伤害。

由于磁盘的空间问题，我无法在HDFS中增加数据复制因子（当前设置为1）

Hadoop datanode失败后无法重启

0 个答案: