以下图片适用于spark sql联合。
其中一项任务改写比其他任务慢得多。
我确定每个任务输入的大小都非常接近。
每次任务索引205都比其他任务慢。
当我重试sql时,任务索引205也非常慢。
我想知道在相同的输入大小下,如何使一项任务随机写入如此之慢?
答案 0 :(得分:0)
尝试使用重新分区(分区数)来增加并行度。这将有助于将负载分散到更多分区中。
此外,如果您的数据不太大,请考虑将spark.sql.shuffle.partitions的默认值从200减小到20或可能是10。
希望这会有所帮助!