应用错误收集

我正在尝试比较python中的2个文件并找出差异。通常，我只是使用内置库之一轻松完成此操作，但是对于每个文件的每一行，我都需要提取信息并将其与另一文件中的相应行进行比较。如果我使用构建的东西，则所有行都不会完全匹配。

现在，我将在第一个文件中逐行进行操作，提取对我来说很重要的信息，并在第二个文件中逐行进行搜索以查看信息是否匹配。我知道这就是为什么要花很长的时间，这是线数的平方，在这种情况下，有数十万条线。

我当时想也许对文件进行预先排序可能会有所帮助，但是我不确定，因为我将对一个非常大的文件进行排序。

有人对加快这个过程有什么建议吗？

编辑-关于此的更多背景知识：我不确定确切的大小，但是一个文件大约60万行，另一个文件大约20k。我提取信息（使用任意数据）的过程示例如下： [文件1中的示例行] '苹果香蕉15橙色菠萝17 55 55 60' 我需要转到第二个文件，查找是否还有行也包含苹果，香蕉，橙子，菠萝，并检查菠萝匹配后的数字（在这种情况下为17）。我不在乎15、55、55或60。只是水果和菠萝之后的数量。文件2中的匹配行可能如下所示： “苹果香蕉66 54吐司橙菠萝17”

用Python比较2个超大文件

0 个答案: