apache-spark - Spark：任务平衡但执行者不平衡

我的工作繁重，需要约8k个任务，并且显示出良好的计算分布

但是，如果我按“任务时间”排序，这就是我在执行者汇总指标中看到的内容。这是最短的任务时间

这是最大

为什么在输入和执行时间方面任务是平衡的，而执行者却没有（即某些执行者比其他执行者获得更多的工作）。有办法避免这种情况吗？

特别是，该阶段正在使用df.write.format("orc").partitionBy("date", "hour").mode(SaveMode.Overwrite).save(path)向hdfs写入一个大数据帧，而我运行在yarn之上