我正在处理一个大约13GB且大约130,000,000行的巨大csv文件。我正在使用python并尝试使用pandas库进行处理,我之前使用过这种工作。但是,我总是处理先前少于2,000,000行或500MB的csv文件。对于这个庞大的文件,当我尝试使用我的代码时,大熊猫似乎不适合我的计算机死机(2011年的MacBook Pro配备8GB RAM)。有人可以建议我在python中处理这种文件吗? csv库会更合适吗?
提前谢谢!
答案 0 :(得分:0)
在Python中我发现,为了打开大文件,最好使用生成器,如:
with open("ludicrously_humongous.csv", "r") as f:
for line in f:
#Any process of that line goes here
以这种方式编程,使您的程序一次只读取一行到内存中,允许您以敏捷的方式处理大文件。