应用错误收集

我有一个包含pandas数据帧的large.h5文件，它太大而无法放入RAM中。我希望open ftp://username:password@example.com/ rename cinta.dmp cinta_bck.dmp exit有用，但无论它的值chunksize总是等于1，只要sorted_index = True（即我事先知道索引已经排序）。

npartitions

所以当我跑：

import dask.dataframe as dd    
df = dd.read_hdf('large.h5', key='data', chunksize=10000, mode='r', sorted_index=True)

制作了一个分区，我的RAM很快就饱和了。

古怪，

df.mean().compute()

完美运作......

使用Dask whith sorted_index = True读取一个非常大的单个HDF文件

0 个答案: