我有一个包含1个namenode和6个datanode的集群。退役3个数据节点后。我们的YARN服务总是健康状况不佳。并且似乎其中一个数据节点上的节点管理器永远不会成功启动。然后我尝试在该框上重启nodemanager。这是日志。
2014-08-01 11:19:08,217 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NodeManager metrics system shutdown complete.
2014-08-01 11:19:08,217 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:185)
at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:197)
at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:352)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:398)
Caused by: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:255)
at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:179)
... 6 more
我搜索了这个错误,但无法找到解决方案,任何人的指导?
答案 0 :(得分:1)
Message from ResourceManager: Disallowed NodeManager
此消息表示您的NodeManager不在允许的节点管理器列表中,或者在排除列表中。
检查资源管理器的配置以获取以下属性:
yarn.resourcemanager.nodes.include-path
yarn.resourcemanager.nodes.exclude-path
答案 1 :(得分:0)
布里亚特是对的。我有同样的问题,修复是将所有节点添加到包含列表。但我想将此说明添加到遇到此问题的任何人。
确保并完全添加纱线抱怨的主机名。在您的示例ResourceManager中: box708.datafireball.com
中的不允许的NodeManager对于我的情况,我添加了一个名为" gpu-0-5"的节点。 " gpu-0-5"主机名在我的yarn.include文件中,纱线一直在抱怨。我注意到它说" gpu-0-5.local" (即使gpu-0-5路由到同一台机器)。一旦我将gpu-0-5.local添加到我的yarn.include列表中,它就开始工作了。
我不确定如何将纱线中的配置更改为仅需要" gpu-0-5"。