在文本文件中查找常用短语

时间:2017-03-21 15:31:49

标签: bash search sed grep

我有大量的文本(例如,100或150个文件)和我想要分析的新文本。我需要知道它是否在我的语料库中有任何文本的常用短语或部分短语(例如借用或依赖于共同来源)。我不知道如何正确地完成这项任务,我开发了一个程序,我不能称之为非常聪明。

  1. 我制作(使用sed脚本)三个四个五个我文件中的连续单词。所以,例如“threes”将成为以下行的文件

    word1 word2 word3

    word2 word3 word4

    word3 word4 word5 ...

  2. 其中word1,word2 ...是新文件的单词,所有新行都被删除。

    1. 我使用 threes fours (甚至 fives )文件的行来查看语料库中的文件。然后我读了grep的输出来评估哪些短语可能是借款。
    2. 所以,我的问题是,我怎样才能使这个程序更有效?显然,借款可能不是100%逐字,我事先不知道,借了多少字等。

      UPD:发现这个讨论似乎非常有用。

      What is a shell command to find the longest common substring of two strings in unix?

0 个答案:

没有答案