从镶木地板或csv文件加载数据时,划分为NONE。 DASK文档没有有关如何设置和计算该值的信息。
如何正确设置和计算DASK数据帧的划分?
答案 0 :(得分:1)
如果您从实木复合地板上阅读,可以像本例中那样使用infer_divisions=True
import dask.dataframe as dd
df = dd.read_parquet("file.parq", infer_divisions=True)
如果需要,您可以在阅读时直接设置索引
df = dd.read_parquet("file.parq", index="my_col",
infer_divisions=True)
答案 1 :(得分:0)
好,我愿意
divisions =[part_n for part_n in range(f.npartitions)]
f = f.set_index(f.index, divisions=divisions).persist()
然后我这样做:
f.groupby('userId').first().compute()
但是最后一次操作非常慢!