在磁盘上保留大型DataFrame?

时间:2018-03-12 06:58:00

标签: python pandas dataframe serialization

对于我的项目,我需要序列化pandas数据帧。哪个是序列化pandas数据帧的最佳方法。我有一个非常大的数据帧。我正在考虑遵循格式,但每个格式都有限制。

Pickle : issues with very large dataframe.
hdf5 : issues with mixed datatypes
csv : ok, but have very large size

1 个答案:

答案 0 :(得分:1)

使用pandas read_csv / to_csv方法支持的众多压缩格式之一:

df.to_csv('file.csv', compression='gzip')

这会将您的数据保存为压缩CSV,占用的空间相当少(根据我的经验,可以实现约60%+压缩)。加载时,您需要等效的内容;

df = pd.read_csv('file.csv', compression='gzip')

其他支持的格式为bz2xz