一次Spark任务混洗写入非常慢

时间:2019-06-25 11:26:53

标签: apache-spark

以下图片适用于spark sql联合。

其中一项任务改写比其他任务慢得多。

我确定每个任务输入的大小都非常接近。

每次任务索引205都比其他任务慢。

当我重试sql时,任务索引205也非常慢。

我想知道在相同的输入大小下,如何使一项任务随机写入如此之慢?

enter image description here

1 个答案:

答案 0 :(得分:0)

尝试使用重新分区(分区数)来增加并行度。这将有助于将负载分散到更多分区中。

此外,如果您的数据不太大,请考虑将spark.sql.shuffle.partitions的默认值从200减小到20或可能是10。

希望这会有所帮助!