我有一个包含pandas数据帧的large.h5文件,它太大而无法放入RAM中。我希望open ftp://username:password@example.com/
rename cinta.dmp cinta_bck.dmp
exit
有用,但无论它的值chunksize
总是等于1,只要sorted_index = True(即我事先知道索引已经排序)。
npartitions
所以当我跑:
import dask.dataframe as dd
df = dd.read_hdf('large.h5', key='data', chunksize=10000, mode='r', sorted_index=True)
制作了一个分区,我的RAM很快就饱和了。
古怪,
df.mean().compute()
完美运作......