应用错误收集

调整Dask分区的大小是否会提高速度？

时间：2019-10-30 09:49:30

标签： python dask

我有一个2700个分区的数据帧。每个分区大约有100万行。我想使用unique()函数在一列中找到所有唯一值。如果我对此数据集执行df.repartition以减少分区数量并增加分区大小，将会提高速度吗？

1 个答案:

答案 0 :(得分：0)

答案是“也许”。

性能取决于很多因素。我建议尝试一下，看看有什么用。您可能还需要阅读我们的Understanding Performance文档页面，其中提供了有关如何理解和衡量性能的一些建议。