方法to_pickle增加文件大小

时间:2016-04-29 08:05:22

标签: python python-2.7 pandas pickle

我有一个数据框,我想存储并稍后有效访问。从各种论坛,我知道我应该使用to_pickle方法。但令我惊讶的是,这进一步增加了尺寸。

df.to_csv('df.csv', sep='\t', mode="wb")  ## 650 MB output file

df.to_pickle('df.pkl') ## 1.3 GB output file

我做错了吗?

编辑: 从评论来看,似乎topickle不是用于生成较小的文件。在这种情况下,什么是最好的存储方式?它只有数字数据,大多数列只有1和0 - 大多数稀疏。

2 个答案:

答案 0 :(得分:1)

check.Close();

然后,您可以使用相同的压缩参数读取它。

答案 1 :(得分:0)

hdf5是一个用于高性能数字数据存储的库。你应该这样使用它:

df.to_hdf('store.h5','df',complevel=1,complib='bzip2')