用Python比较2个超大文件

时间:2019-07-16 14:28:20

标签: python comparison large-files

我正在尝试比较python中的2个文件并找出差异。通常,我只是使用内置库之一轻松完成此操作,但是对于每个文件的每一行,我都需要提取信息并将其与另一文件中的相应行进行比较。如果我使用构建的东西,则所有行都不会完全匹配。

现在,我将在第一个文件中逐行进行操作,提取对我来说很重要的信息,并在第二个文件中逐行进行搜索以查看信息是否匹配。我知道这就是为什么要花很长的时间,这是线数的平方,在这种情况下,有数十万条线。

我当时想也许对文件进行预先排序可能会有所帮助,但是我不确定,因为我将对一个非常大的文件进行排序。

有人对加快这个过程有什么建议吗?

编辑-关于此的更多背景知识:我不确定确切的大小,但是一个文件大约60万行,另一个文件大约20k。我提取信息(使用任意数据)的过程示例如下: [文件1中的示例行] '苹果香蕉15橙色菠萝17 55 55 60' 我需要转到第二个文件,查找是否还有行也包含苹果,香蕉,橙子,菠萝,并检查菠萝匹配后的数字(在这种情况下为17)。我不在乎15、55、55或60。只是水果和菠萝之后的数量。 文件2中的匹配行可能如下所示: “苹果香蕉66 54吐司橙菠萝17”

0 个答案:

没有答案