应用错误收集

这与我之前关于OOM的帖子（here）有关，我在运行一些Spark步骤后遇到了驱动程序。

除了master之外，我还有一个包含2个节点的集群，将作业作为客户端运行。这是一项不太占用大量内存的小工作。

我通过htop特别关注hadoop进程，它们是用户生成的进程，也是最高内存使用者。主要罪魁祸首是amazon.emr.metric.server进程，然后是状态推送进程。

作为一个测试我杀了这个过程，Ganglia显示的记忆大幅下降，然后在OOM再次发生之前，我能够连续运行3-4个工作。如果我手动终止进程，则会重复此行为。

我的问题实际上是关于这些流程的默认行为，以及我目睹的是常态还是发生了什么事情。