使用Pandas和HD5 / HDFStore压缩

时间:2013-08-16 13:52:25

标签: python pandas hdf5

对于项目的某些方面,使用“h5”存储将是理想的。然而,文件变得越来越大,坦率地说,我们的空间已经不多了。

这句话......

 store.put(storekey, data, table=False, compression='gzip')

在文件大小方面没有产生任何差异......

 store.put(storekey, data, table=False)

在通过Pandas时,甚至可以使用压缩吗?

...如果不可能,我不介意使用h5py,但是,我不确定要为“数据类型”添加什么,因为DataFrame包含各种类型(字符串,float,int等) 。)

任何帮助/见解都将不胜感激!

2 个答案:

答案 0 :(得分:9)

使用HDFStore

查看有关压缩的docs

gzip不是有效的压缩选项(并且被忽略,这是一个错误)。 尝试zlib, bzip2, lzo, blosc中的任何一个(bzip2 / lzo可能需要安装额外的库)

查看有关各种压缩的PyTables docs

Heres a question半相关。

答案 1 :(得分:1)

我过去很喜欢HDF5,但是遇到了各种各样的并发症,特别是对于Pandas HDFStore,我开始认为Exdir是一个好主意。

http://exdir.readthedocs.io