我在一些大型CSV文件(超过3000万行)上使用Pandas时遇到了内存问题。所以,我想知道什么是最好的解决方案?我需要合并几张大桌子。非常感谢!
答案 0 :(得分:0)
Fastest way to parse large CSV files in Pandas可能重复。
推断是,如果您经常加载 csv文件数据,那么更好的方法是解析它一次(使用传统的read_csv
)并将其存储在{{3格式。 Pandas
(使用PyTables
库)提供了一种处理此问题的有效方法[HDF5]。
此外,docs的答案显示了csv
vs csv.gz
vs Pickle
vs HDF5
比较。