使用大型CSV文件时python pandas内存错误

时间:2016-05-12 04:56:28

标签: python pandas

我在一些大型CSV文件(超过3000万行)上使用Pandas时遇到了内存问题。所以,我想知道什么是最好的解决方案?我需要合并几张大桌子。非常感谢!

1 个答案:

答案 0 :(得分:0)

Fastest way to parse large CSV files in Pandas可能重复。

推断是,如果您经常加载 csv文件数据,那么更好的方法是解析它一次(使用传统的read_csv)并将其存储在{{3格式。 Pandas(使用PyTables库)提供了一种处理此问题的有效方法[HDF5]。

此外,docs的答案显示了csv vs csv.gz vs Pickle vs HDF5比较。