如何在dask数据框中设置(计算)除法?

时间:2019-06-05 14:16:17

标签: python dask

从镶木地板或csv文件加载数据时,划分为NONE。 DASK文档没有有关如何设置和计算该值的信息。

如何正确设置和计算DASK数据帧的划分?

2 个答案:

答案 0 :(得分:1)

如果您从实木复合地板上阅读,可以像本例中那样使用infer_divisions=True

import dask.dataframe as dd
df = dd.read_parquet("file.parq", infer_divisions=True)

如果需要,您可以在阅读时直接设置索引

df = dd.read_parquet("file.parq", index="my_col",
                     infer_divisions=True)

答案 1 :(得分:0)

好,我愿意

divisions =[part_n for part_n in range(f.npartitions)]
f = f.set_index(f.index, divisions=divisions).persist()

然后我这样做:

f.groupby('userId').first().compute()

但是最后一次操作非常慢!