AWS EMR度量服务器 - 群集驱动程序导致内存不足错误

时间:2016-06-17 10:20:59

标签: hadoop amazon-web-services apache-spark emr amazon-emr

这与我之前关于OOM的帖子(here)有关,我在运行一些Spark步骤后遇到了驱动程序。

除了master之外,我还有一个包含2个节点的集群,将作业作为客户端运行。这是一项不太占用大量内存的小工作。

我通过htop特别关注hadoop进程,它们是用户生成的进程,也是最高内存使用者。主要罪魁祸首是amazon.emr.metric.server进程,然后是状态推送进程。

作为一个测试我杀了这个过程,Ganglia显示的记忆大幅下降,然后在OOM再次发生之前,我能够连续运行3-4个工作。如果我手动终止进程,则会重复此行为。

我的问题实际上是关于这些流程的默认行为,以及我目睹的是常态还是发生了什么事情。

0 个答案:

没有答案
相关问题