在 Spark 中重新分区倾斜的数据帧

时间:2021-01-24 09:57:41

标签: apache-spark pyspark apache-spark-sql

我有一个关于 PySpark 的问题。

聚合后,我的数据确实有偏差(有些分区很大)。

如果我重新分区;需要很长时间,因为数据集很大。

重新分区是重新对齐这些分区大小的最佳选择吗?

如果我将它加入另一个数据集;在加入之前我应该​​重新分区吗?

对最佳实践的任何想法将不胜感激!

非常感谢

0 个答案:

没有答案
相关问题