Question

我正在运行迭代算法，其中在每次迭代期间，每个值的列表被分配一组键（1到N）。随着时间的推移，文件在键上的分布变得歪曲。我注意到经过几次迭代，合并阶段后，事情似乎开始在我的RDD的最后几个分区上运行得非常慢。

我的转变如下：

dataRDD_of_20000_partitions.aggregateByKey(zeroOp)(seqOp, mergeOp)
    .mapValues(...)
    .coalesce(1000, true)
    .collect()

这里，aggregatebykey聚合我之前指定的键（1到N）。我可以合并分区，因为我知道我需要的分区数量，并将coalesce shuffle设置为true以平衡分区。

有人能指出这些转换可能导致RDD的最后几个分区处理缓慢的原因吗？我想知道这部分是否与数据偏差有关。

Answer 1

我有一些观察。