我有一个数据框,我想存储并稍后有效访问。从各种论坛,我知道我应该使用to_pickle方法。但令我惊讶的是,这进一步增加了尺寸。
df.to_csv('df.csv', sep='\t', mode="wb") ## 650 MB output file
df.to_pickle('df.pkl') ## 1.3 GB output file
我做错了吗?
编辑: 从评论来看,似乎topickle不是用于生成较小的文件。在这种情况下,什么是最好的存储方式?它只有数字数据,大多数列只有1和0 - 大多数稀疏。
答案 0 :(得分:1)
check.Close();
然后,您可以使用相同的压缩参数读取它。
答案 1 :(得分:0)
hdf5是一个用于高性能数字数据存储的库。你应该这样使用它:
df.to_hdf('store.h5','df',complevel=1,complib='bzip2')