AWS EMR集群主节点上的Spark 100%CPU利用率

时间:2017-04-27 08:21:23

标签: hadoop apache-spark amazon-emr

我在AWS-EMR集群上使用Apache-Spark(1个Master 4 Slaves - r4.xlarge实例)。

我的作业在我的主节点中编译并打包为jar。 Spark-submit是从主节点完成的,引用编译作业的本地jar路径。使用Spark History Server,我发现作业在数据/任务节点之间分开进行计算。

但是在某个时间点之后,主节点的CPU利用率达到100%,而数据节点的CPU利用率则达到25-40%。 即使没有进行任何计算,我的主节点的CPU利用率也只有40%左右。

在此链接中,Spark History Server被视为根本原因。但清除应用程序日志dint对我有用。

  1. 将jar放在主节点会导致问题吗?
  2. 是否应该放置分布式缓存?

0 个答案:

没有答案