我正在尝试将数百万现有的HDF5文件转换为Parquet格式。问题是输入和输出都不适合内存所以我需要以块的形式处理输入数据(HDF5文件中的表)的方法,并且在某种程度上让Pandas DataFrame在fastparquet write function从here读取时延迟加载这些块它。
Pandas read_hdf()和HDF5Store选择做将chunksize作为参数,但它们不返回可用的数据帧。如果没有 chunksize 参数,程序会耗尽内存,因为Pandas会将整个数据集加载到内存中。