将DataFrame保存到文件时的熊猫内存错误

时间:2018-11-30 20:13:00

标签: python pandas

我最终设法在学校的一台大型计算机(512G内存)上加入了两个大型DataFrame。目前,我们有两个人使用同一台计算机,另一个人使用的内存约为120G,在我致电垃圾收集器后,我们的内存为420G。

我想将DataFrame保存到内存中,以便我可以轻松地重用DataFrame并将其移至另一台机器上,我试图将其导出到Parquet文件中,但是出现内存错误...

那么当内存已经快满时,如何才能Dataframe转储到硬盘驱动器上以重用它而不会遇到内存错误?

谢谢

2 个答案:

答案 0 :(得分:0)

有几种选择。您可以腌制数据框,也可以使用hdf5格式。 这些将占用更少的内存。同样,下次加载时,它会比其他格式更快。

答案 1 :(得分:-1)

我不确定如何处理这么大的数据集,但可以使用pandas函数to_csv将文件保存到硬盘驱动器。

df.to_csv("filename.csv")

如果您将来要使用那么多数据,我可能会建议采用一种分块方法,如此处提到的方法:https://stackoverflow.com/a/25962187/4852976