退役某些节点后无法启动某个节点管理器

时间:2014-08-01 15:26:51

标签: hadoop cloudera yarn

我有一个包含1个namenode和6个datanode的集群。退役3个数据节点后。我们的YARN服务总是健康状况不佳。并且似乎其中一个数据节点上的节点管理器永远不会成功启动。然后我尝试在该框上重启nodemanager。这是日志。

2014-08-01 11:19:08,217 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NodeManager metrics system shutdown complete.
2014-08-01 11:19:08,217 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from  box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:185)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:197)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:352)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:398)
Caused by: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from  box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:255)
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:179)
    ... 6 more

我搜索了这个错误,但无法找到解决方案,任何人的指导?

2 个答案:

答案 0 :(得分:1)

Message from ResourceManager: Disallowed NodeManager

此消息表示您的NodeManager不在允许的节点管理器列表中,或者在排除列表中。

检查资源管理器的配置以获取以下属性:

yarn.resourcemanager.nodes.include-path

yarn.resourcemanager.nodes.exclude-path

答案 1 :(得分:0)

布里亚特是对的。我有同样的问题,修复是将所有节点添加到包含列表。但我想将此说明添加到遇到此问题的任何人。

确保并完全添加纱线抱怨的主机名。在您的示例ResourceManager中: box708.datafireball.com

中的不允许的NodeManager

对于我的情况,我添加了一个名为" gpu-0-5"的节点。 " gpu-0-5"主机名在我的yarn.include文件中,纱线一直在抱怨。我注意到它说" gpu-0-5.local" (即使gpu-0-5路由到同一台机器)。一旦我将gpu-0-5.local添加到我的yarn.include列表中,它就开始工作了。

我不确定如何将纱线中的配置更改为仅需要" gpu-0-5"。