假设我有两个文本文件Test
和Master
,每个文件都有不同的长度。我想通过Test
进行解析,看看它是否与Master
有任何n个连续词。
例如,如果n = 5,则返回一个列表,其中包含Test
和Master
之间共有的五个单词短语作为其元素。例如,如果两个文件中存在五个单词的分组,则其中一个元素为and then we went to
。
我不知道是否存在这样的库,他们可能会这样做,但我不知道它们。就我自己的解决方案而言,一个突然出现在我脑海中,我可能会在空白处拆分两个文件并遍历它们以查看元素0到4是否匹配,然后是1到5,2到6等。看起来非常低效,特别是对于更大的文件。
感谢任何建议,如果我可以进一步扩展这个问题,请告诉我。谢谢!