EMR集群中的“LOST”节点

时间:2015-09-03 20:57:42

标签: hadoop mapreduce hadoop2 emr

如何在长时间运行的EMR群集中对故障节点进行故障排除和恢复?

该节点几天前停止了报告。主机看起来很好,也是HDFS。我只是从Hadoop应用程序UI中注意到了这个问题。

1 个答案:

答案 0 :(得分:0)

EMR节点是短暂的,一旦标记为LOST,您就无法恢复它们。您可以通过在群集启动期间启用“终止保护”功能来首先避免这种情况。

关于查找LOST节点的原因,您可以检查群集的YARN ResourceManager日志和/或实例控制器日志,以了解有关根本原因的更多信息。