对于我的项目,我需要序列化pandas数据帧。哪个是序列化pandas数据帧的最佳方法。我有一个非常大的数据帧。我正在考虑遵循格式,但每个格式都有限制。
Pickle : issues with very large dataframe.
hdf5 : issues with mixed datatypes
csv : ok, but have very large size
答案 0 :(得分:1)
使用pandas read_csv
/ to_csv
方法支持的众多压缩格式之一:
df.to_csv('file.csv', compression='gzip')
这会将您的数据保存为压缩CSV,占用的空间相当少(根据我的经验,可以实现约60%+压缩)。加载时,您需要等效的内容;
df = pd.read_csv('file.csv', compression='gzip')
其他支持的格式为bz2
和xz
。