Question

我正在处理一个大约13GB且大约130,000,000行的巨大csv文件。我正在使用python并尝试使用pandas库进行处理，我之前使用过这种工作。但是，我总是处理先前少于2,000,000行或500MB的csv文件。对于这个庞大的文件，当我尝试使用我的代码时，大熊猫似乎不适合我的计算机死机（2011年的MacBook Pro配备8GB RAM）。有人可以建议我在python中处理这种文件吗？ csv库会更合适吗？

提前谢谢！

Answer 1

在Python中我发现，为了打开大文件，最好使用生成器，如：

with open("ludicrously_humongous.csv", "r") as f:
    for line in f:
        #Any process of that line goes here

以这种方式编程，使您的程序一次只读取一行到内存中，允许您以敏捷的方式处理大文件。

如何操作巨大的csv文件（＆gt; 12GB）？

1 个答案: