我的工作繁重,需要约8k个任务,并且显示出良好的计算分布
但是,如果我按“任务时间”排序,这就是我在执行者汇总指标中看到的内容。这是最短的任务时间
这是最大
为什么在输入和执行时间方面任务是平衡的,而执行者却没有(即某些执行者比其他执行者获得更多的工作)。有办法避免这种情况吗?
特别是,该阶段正在使用df.write.format("orc").partitionBy("date", "hour").mode(SaveMode.Overwrite).save(path)
向hdfs写入一个大数据帧,而我运行在yarn之上