标签: python dask
我有一个2700个分区的数据帧。每个分区大约有100万行。我想使用unique()函数在一列中找到所有唯一值。如果我对此数据集执行df.repartition以减少分区数量并增加分区大小,将会提高速度吗?
unique()
df.repartition
答案 0 :(得分:0)
答案是“也许”。
性能取决于很多因素。我建议尝试一下,看看有什么用。您可能还需要阅读我们的Understanding Performance文档页面,其中提供了有关如何理解和衡量性能的一些建议。