我正在使用带有pandas / pytables的HDFStore。
删除表或对象后,hdf5文件大小不受影响。当其他对象被添加到存储中时,似乎此空间会被重用,但如果浪费大空间则可能会出现问题。
我没有在pandas和pytables API中找到任何可能用于恢复hdf5内存的命令。
您知道在hdf5文件中改进数据管理的任何机制吗?
答案 0 :(得分:11)
请参阅here
你需要ptrepack
它,它会重写文件。
ptrepack --chunkshape=auto --propindexes --complevel=9 --complib=blosc in.h5 out.h5
作为示例(这也将压缩文件)。