如何操作巨大的csv文件(> 12GB)?

时间:2014-10-07 21:56:51

标签: python csv pandas bigdata data-analysis

我正在处理一个大约13GB且大约130,000,000行的巨大csv文件。我正在使用python并尝试使用pandas库进行处理,我之前使用过这种工作。但是,我总是处理先前少于2,000,000行或500MB的csv文件。对于这个庞大的文件,当我尝试使用我的代码时,大熊猫似乎不适合我的计算机死机(2011年的MacBook Pro配备8GB RAM)。有人可以建议我在python中处理这种文件吗? csv库会更合适吗?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

在Python中我发现,为了打开大文件,最好使用生成器,如:

with open("ludicrously_humongous.csv", "r") as f:
    for line in f:
        #Any process of that line goes here

以这种方式编程,使您的程序一次只读取一行到内存中,允许您以敏捷的方式处理大文件。