应用错误收集

文本比较 - 在事先不知道单词的情况下找到n个单词的任何常见组

时间：2017-08-05 23:18:10

标签： python

假设我有两个文本文件Test和Master，每个文件都有不同的长度。我想通过Test进行解析，看看它是否与Master有任何n个连续词。

例如，如果n = 5，则返回一个列表，其中包含Test和Master之间共有的五个单词短语作为其元素。例如，如果两个文件中存在五个单词的分组，则其中一个元素为and then we went to。

我不知道是否存在这样的库，他们可能会这样做，但我不知道它们。就我自己的解决方案而言，一个突然出现在我脑海中，我可能会在空白处拆分两个文件并遍历它们以查看元素0到4是否匹配，然后是1到5,2到6等。看起来非常低效，特别是对于更大的文件。

感谢任何建议，如果我可以进一步扩展这个问题，请告诉我。谢谢！

0 个答案:

没有答案