对于项目的某些方面,使用“h5”存储将是理想的。然而,文件变得越来越大,坦率地说,我们的空间已经不多了。
这句话......
store.put(storekey, data, table=False, compression='gzip')
在文件大小方面没有产生任何差异......
store.put(storekey, data, table=False)
在通过Pandas时,甚至可以使用压缩吗?
...如果不可能,我不介意使用h5py,但是,我不确定要为“数据类型”添加什么,因为DataFrame包含各种类型(字符串,float,int等) 。)
任何帮助/见解都将不胜感激!
答案 0 :(得分:9)
使用HDFStore
gzip
不是有效的压缩选项(并且被忽略,这是一个错误)。
尝试zlib, bzip2, lzo, blosc
中的任何一个(bzip2 / lzo可能需要安装额外的库)
查看有关各种压缩的PyTables docs
Heres a question半相关。
答案 1 :(得分:1)
我过去很喜欢HDF5,但是遇到了各种各样的并发症,特别是对于Pandas HDFStore,我开始认为Exdir是一个好主意。