我有大量的文本(例如,100或150个文件)和我想要分析的新文本。我需要知道它是否在我的语料库中有任何文本的常用短语或部分短语(例如借用或依赖于共同来源)。我不知道如何正确地完成这项任务,我开发了一个程序,我不能称之为非常聪明。
我制作(使用sed脚本)对,三个,四个,五个我文件中的连续单词。所以,例如“threes”将成为以下行的文件
word1 word2 word3
word2 word3 word4
word3 word4 word5 ...
其中word1,word2 ...是新文件的单词,所有新行都被删除。
所以,我的问题是,我怎样才能使这个程序更有效?显然,借款可能不是100%逐字,我事先不知道,借了多少字等。
UPD:发现这个讨论似乎非常有用。What is a shell command to find the longest common substring of two strings in unix?