我试图调整Spark应用程序,以减少总体执行时间,但我在舞台执行过程中遇到了奇怪的行为。
基本上只有14/120个任务需要大约20分钟完成,其他任务需要4或5分钟才能完成。
看一下Spark UI,分区似乎很好,我看到的唯一区别是14个任务的GC时间非常高。
我附上了情况的图像。
答案 0 :(得分:0)
我有类似的问题,可以通过使用Parallel GC而不是G1GC来解决它。您可以将以下选项添加到提交请求中的执行程序其他Java选项
-XX:+UseParallelGC -XX:+UseParallelOldGC