标签: python apache-spark pyspark
我有一个非常大的偏斜数据集,我必须在其中执行groupBy + pivot + aggregation,但是我觉得因为偏斜的数据集将对groupBy操作之前/之后的数据进行重新分区,这有助于我在相同条件下获得更好的性能?
我还需要建议,如果添加重新分区会产生更好的结果,那么我应该将其放置在groupBy操作之后(我有直觉应该这样做)还是应该将其放置在它之前?