这是我找不到的东西。
我有一个带有一些奴隶的YARN群集。当奴隶出现故障(乱猴,缩小等)时,ResourceManager不会“得到它”。即使是rmadmin -refreshNodes
也无法解决问题。 ResourceManager将故障节点列为RUNNING
。如何让ResourceManager检查从属运行状况健康状况并在失败时将其删除?
答案 0 :(得分:0)
请查看Hadoop权威指南,第10章,维护,调试和退役节点。看起来您正在尝试使用上述命令更新jobtracker。这里提到了更复杂的过程,同时更新了名称节点,验证了Web UI的进度,以及从包含文件和从属文件中删除节点