我怀疑YARN中究竟是什么保留内存? 我确实理解它的YARN平衡了提交的几个作业所引起的内存需求的方式,因此没有工作进入饥饿模式。当它被释放用于另一个工作时,它会尝试保留内存。
我们将AWS EMR用于我们的运营。我观察到有时在我们的集群上提交内存密集型作业(比如spark-sql job)时,1TB ram会从我们的3TB RAM中保留。 即使只在集群上提交/运行一个作业,我也观察到了这一点,而其他任何人都在等待或排队等候。 在5-15分钟的范围内间歇性地观察到这种记忆的峰值,然后降低到可管理的水平甚至是0。
有人可以解释这是否是正常行为。如果正常请详细解释。否则,如果有可能触发此错误的配置错误,请帮我解决此问题。
注意 - >我们在EMR 5.0.0上安装了R4 8xlarge 10节点集群。
提前致谢
Manish Mehra