应用错误收集

一次Spark任务混洗写入非常慢

时间：2019-06-25 11:26:53

标签： apache-spark

以下图片适用于spark sql联合。

其中一项任务改写比其他任务慢得多。

我确定每个任务输入的大小都非常接近。

每次任务索引205都比其他任务慢。

当我重试sql时，任务索引205也非常慢。

我想知道在相同的输入大小下，如何使一项任务随机写入如此之慢？

1 个答案:

答案 0 :(得分：0)

尝试使用重新分区（分区数）来增加并行度。这将有助于将负载分散到更多分区中。

此外，如果您的数据不太大，请考虑将spark.sql.shuffle.partitions的默认值从200减小到20或可能是10。

希望这会有所帮助！