应用错误收集

使用groupBy进行分区的性能优势

时间：2019-08-23 10:19:47

标签： python apache-spark pyspark

我有一个非常大的偏斜数据集，我必须在其中执行groupBy + pivot + aggregation，但是我觉得因为偏斜的数据集将对groupBy操作之前/之后的数据进行重新分区，这有助于我在相同条件下获得更好的性能？

我还需要建议，如果添加重新分区会产生更好的结果，那么我应该将其放置在groupBy操作之后（我有直觉应该这样做）还是应该将其放置在它之前？

0 个答案:

没有答案