我正在寻找能够在句子中找到n-gram的算法(或C#,Java源代码)。具体来说,我有一个100字(w1到w100)的词汇和由这些词组成的句子(s1,s2,s3等)。
句子的长度可变,从1到100个单词,单词可以在句子中的任何顺序出现(但一旦放在句子中,顺序计数),单词可以重复任意次。
我正在寻找一种算法,该算法将采用阈值数并返回阈值以上的句子中出现的n-gram和n-gram出现的句子。
我也对间隙容忍算法很感兴趣,该算法以相同的顺序查找常见词,但两者之间存在间隙。
提前致谢。我希望在StackOverflow的范围内明确说明这个问题。