标签: apache-spark pyspark apache-spark-sql
我有一个关于 PySpark 的问题。
聚合后,我的数据确实有偏差(有些分区很大)。
如果我重新分区;需要很长时间,因为数据集很大。
重新分区是重新对齐这些分区大小的最佳选择吗?
如果我将它加入另一个数据集;在加入之前我应该重新分区吗?
对最佳实践的任何想法将不胜感激!
非常感谢