应用错误收集

我在AWS-EMR集群上使用Apache-Spark（1个Master 4 Slaves - r4.xlarge实例）。

我的作业在我的主节点中编译并打包为jar。 Spark-submit是从主节点完成的，引用编译作业的本地jar路径。使用Spark History Server，我发现作业在数据/任务节点之间分开进行计算。

但是在某个时间点之后，主节点的CPU利用率达到100％，而数据节点的CPU利用率则达到25-40％。即使没有进行任何计算，我的主节点的CPU利用率也只有40％左右。

在此链接中，Spark History Server被视为根本原因。但清除应用程序日志dint对我有用。