标签: hadoop mapreduce hadoop2 emr
如何在长时间运行的EMR群集中对故障节点进行故障排除和恢复?
该节点几天前停止了报告。主机看起来很好,也是HDFS。我只是从Hadoop应用程序UI中注意到了这个问题。
答案 0 :(得分:0)
EMR节点是短暂的,一旦标记为LOST,您就无法恢复它们。您可以通过在群集启动期间启用“终止保护”功能来首先避免这种情况。
关于查找LOST节点的原因,您可以检查群集的YARN ResourceManager日志和/或实例控制器日志,以了解有关根本原因的更多信息。