应用错误收集

我有大量的文本（例如，100或150个文件）和我想要分析的新文本。我需要知道它是否在我的语料库中有任何文本的常用短语或部分短语（例如借用或依赖于共同来源）。我不知道如何正确地完成这项任务，我开发了一个程序，我不能称之为非常聪明。

其中word1，word2 ...是新文件的单词，所有新行都被删除。

所以，我的问题是，我怎样才能使这个程序更有效？显然，借款可能不是100％逐字，我事先不知道，借了多少字等。