使用Dask whith sorted_index = True读取一个非常大的单个HDF文件

时间:2018-04-12 12:03:14

标签: python dataframe dask

我有一个包含pandas数据帧的large.h5文件,它太大而无法放入RAM中。我希望open ftp://username:password@example.com/ rename cinta.dmp cinta_bck.dmp exit 有用,但无论它的值chunksize总是等于1,只要sorted_index = True(即我事先知道索引已经排序)。

npartitions

所以当我跑:

import dask.dataframe as dd    
df = dd.read_hdf('large.h5', key='data', chunksize=10000, mode='r', sorted_index=True)

制作了一个分区,我的RAM很快就饱和了。

古怪,

df.mean().compute()

完美运作......

0 个答案:

没有答案