Question

从镶木地板或csv文件加载数据时，划分为NONE。 DASK文档没有有关如何设置和计算该值的信息。

如何正确设置和计算DASK数据帧的划分？

Answer 1

如果您从实木复合地板上阅读，可以像本例中那样使用infer_divisions=True

import dask.dataframe as dd
df = dd.read_parquet("file.parq", infer_divisions=True)

如果需要，您可以在阅读时直接设置索引

df = dd.read_parquet("file.parq", index="my_col",
                     infer_divisions=True)

Answer 2

好，我愿意

divisions =[part_n for part_n in range(f.npartitions)]
f = f.set_index(f.index, divisions=divisions).persist()

然后我这样做：

f.groupby('userId').first().compute()

但是最后一次操作非常慢！