我在AWS-EMR集群上使用Apache-Spark(1个Master 4 Slaves - r4.xlarge实例)。
我的作业在我的主节点中编译并打包为jar。 Spark-submit是从主节点完成的,引用编译作业的本地jar路径。使用Spark History Server,我发现作业在数据/任务节点之间分开进行计算。
但是在某个时间点之后,主节点的CPU利用率达到100%,而数据节点的CPU利用率则达到25-40%。 即使没有进行任何计算,我的主节点的CPU利用率也只有40%左右。
在此链接中,Spark History Server被视为根本原因。但清除应用程序日志dint对我有用。