如何将数据帧重新分区为固定大小的分区?

时间:2017-03-17 05:02:28

标签: python dataframe dask

我有一个由延迟函数创建的dask数据帧,它由随机大小的分区组成。我想将数据帧重新分区为大小(大约)10000的块。

我可以使用np.ceil(df.size/10000)计算正确的分区数,但这似乎可以立即计算结果?

IIUC计算结果,它必须将所有数据帧读入内存,效率非常低。我宁愿将整个操作指定为要提交给分布式调度程序的dask图,因此不应在本地进行任何计算。

有没有办法指定npartitions而不立即计算所有潜在的延迟函数?

1 个答案:

答案 0 :(得分:4)

简短回答可能是"不,如果不查看数据就没有办法做到这一点"。这里的原因是图的结构取决于惰性分区的值。例如,根据您的总数据量,我们在图表中有不同数量的节点。