apache-spark - 在 Spark 中重新分区倾斜的数据帧 - Thinbug

在 Spark 中重新分区倾斜的数据帧

时间：2021-01-24 09:57:41

标签： apache-spark pyspark apache-spark-sql

我有一个关于 PySpark 的问题。

聚合后，我的数据确实有偏差（有些分区很大）。

如果我重新分区；需要很长时间，因为数据集很大。

重新分区是重新对齐这些分区大小的最佳选择吗？

如果我将它加入另一个数据集；在加入之前我应该重新分区吗？

对最佳实践的任何想法将不胜感激！

非常感谢

0 个答案:

没有答案