我们有一个CDH-5.11.0-1.cdh5.11.0.p0.34-el7和SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7的集群
ResourceManager会抛出OOM异常并在15天后退出,并在oom_heap_dump_dir中留下类似yarn_yarn-RESOURCEMANAGER-0416ef018576621c2992469c034c0761_pid11312.hprof的文件。
我们使用Eclipse MAT来分析这个hprof文件,结果如下。picture1
我们是新手使用hadoop和java,所以任何帮助都将非常感激。
我刚刚发现了同样的问题 ResourceManager Memory Leak? 但没有人回答......