我最终设法在学校的一台大型计算机(512G内存)上加入了两个大型DataFrame。目前,我们有两个人使用同一台计算机,另一个人使用的内存约为120G,在我致电垃圾收集器后,我们的内存为420G。
我想将DataFrame保存到内存中,以便我可以轻松地重用DataFrame并将其移至另一台机器上,我试图将其导出到Parquet文件中,但是出现内存错误...
那么当内存已经快满时,如何才能Dataframe
转储到硬盘驱动器上以重用它而不会遇到内存错误?
谢谢
答案 0 :(得分:0)
有几种选择。您可以腌制数据框,也可以使用hdf5格式。 这些将占用更少的内存。同样,下次加载时,它会比其他格式更快。
答案 1 :(得分:-1)
我不确定如何处理这么大的数据集,但可以使用pandas函数to_csv
将文件保存到硬盘驱动器。
df.to_csv("filename.csv")
如果您将来要使用那么多数据,我可能会建议采用一种分块方法,如此处提到的方法:https://stackoverflow.com/a/25962187/4852976