文本比较 - 在​​事先不知道单词的情况下找到n个单词的任何常见组

时间:2017-08-05 23:18:10

标签: python

假设我有两个文本文件TestMaster,每个文件都有不同的长度。我想通过Test进行解析,看看它是否与Master有任何n个连续词。

例如,如果n = 5,则返回一个列表,其中包含TestMaster之间共有的五个单词短语作为其元素。例如,如果两个文件中存在五个单词的分组,则其中一个元素为and then we went to

我不知道是否存在这样的库,他们可能会这样做,但我不知道它们。就我自己的解决方案而言,一个突然出现在我脑海中,我可能会在空白处拆分两个文件并遍历它们以查看元素0到4是否匹配,然后是1到5,2到6等。看起来非常低效,特别是对于更大的文件。

感谢任何建议,如果我可以进一步扩展这个问题,请告诉我。谢谢!

0 个答案:

没有答案