Spark:任务平衡但执行者不平衡

时间:2019-01-04 09:05:06

标签: apache-spark apache-spark-sql

我的工作繁重,需要约8k个任务,并且显示出良好的计算分布

enter image description here

但是,如果我按“任务时间”排序,这就是我在执行者汇总指标中看到的内容。这是最短的任务时间

enter image description here

这是最大

enter image description here

为什么在输入和执行时间方面任务是平衡的,而执行者却没有(即某些执行者比其他执行者获得更多的工作)。有办法避免这种情况吗?

特别是,该阶段正在使用df.write.format("orc").partitionBy("date", "hour").mode(SaveMode.Overwrite).save(path)向hdfs写入一个大数据帧,而我运行在yarn之上

0 个答案:

没有答案