Spark Stage性能,发现GC Time非常高,仅适用于少数任务

时间:2017-10-08 11:18:02

标签: performance apache-spark garbage-collection rdd

我试图调整Spark应用程序,以减少总体执行时间,但我在舞台执行过程中遇到了奇怪的行为。

基本上只有14/120个任务需要大约20分钟完成,其他任务需要4或5分钟才能完成。

看一下Spark UI,分区似乎很好,我看到的唯一区别是14个任务的GC时间非常高。

我附上了情况的图像。

您有什么想法找到性能解决方案吗? enter image description here enter image description here

1 个答案:

答案 0 :(得分:0)

我有类似的问题,可以通过使用Parallel GC而不是G1GC来解决它。您可以将以下选项添加到提交请求中的执行程序其他Java选项

-XX:+UseParallelGC -XX:+UseParallelOldGC