Python读取大文本文件

时间:2013-08-10 06:26:51

标签: python file file-io

我试图逐行比较两个大文本文件(每个10GB)而不将整个文件加载到内存中。我使用了以下代码,如其他threads所示:

with open(in_file1,"r") as f1, open(in_file2,"r") as f2:
    for (line1, line2) in zip(f1, f2):
        compare(line1, line2)

但似乎python无法逐行读取文件。我观察到运行代码时的内存使用情况是> 20G。我也尝试过使用:

import fileinput
for (line1, line2) in zip(fileinput.input([in_file1]),fileinput.input([in_file2])):
    compare(line1, line2)

这个也尝试将所有内容加载到内存中。我在Centos 5.9上使用Python 2.7.4,并且我没有在代码中存储任何行。

我的代码出了什么问题?我应该如何更改它以避免将所有内容加载到RAM中?

1 个答案:

答案 0 :(得分:6)

Python的 zip 函数返回元组的列表。因此,如果获取完整文件来构建此列表。请改用 itertools.izip 。它将返回元组的迭代器

with open(in_file1,"r") as f1, open(in_file2,"r") as f2:
    for (line1, line2) in izip(f1, f2):
        compare(line1, line2)