资源管理器不会从待机状态转换到活动状态

时间:2016-09-07 11:50:22

标签: mapreduce yarn hadoop2 resourcemanager

一个火花作业运行超过23天,最终导致资源管理器崩溃。重新启动资源管理器后(我们的集群中有两个),它们都处于待机状态。

我们收到了这个错误:

  

错误org.apache.hadoop.yarn.server.resourcemanager.ResourceManager无法加载/恢复状态   org.apache.hadoop.yarn.exceptions.YarnException:id为application_1470300000724_40101的应用程序已存在!无法添加副本!

我们无法杀死' application_1470300000724_40101'来自纱线,因为资源管理器不起作用。所以我们在所有节点上从Unix级别杀死所有实例但是dint工作。我们尝试重新启动所有节点,但仍然是相同的。

在某个地方,该作业的一个条目仍然存在,并阻止资源管理器被选为活动状态。我们正在使用cloudera 5.3.0,我可以看到这个问题已在cloudera 5.3.3中得到解决和解决。但是现在我们需要一个解决方法来过去。

1 个答案:

答案 0 :(得分:0)

要解决此问题,我们可以通过执行以下命令来格式化 RMStateStore

yarn resourcemanager -format-state-store

但要小心,因为这将清除执行此命令之前执行的所有应用程序历史记录。