Spark CollectPartitions在以后的分区中会变慢

时间:2018-02-26 04:21:33

标签: java apache-spark

我们正在处理一个包含120个分区的文件。由于我们必须收集所有分区,而不是一次收集所有分区,因此我们使用collectPartition,一次收集20个分区。这似乎工作,但后来分区,它因为太慢。请参照附件。可能导致这种行为的原因是什么?

Screen print of Spark UI

0 个答案:

没有答案