应用错误收集

我正在寻找能够在句子中找到n-gram的算法（或C＃，Java源代码）。具体来说，我有一个100字（w1到w100）的词汇和由这些词组成的句子（s1，s2，s3等）。

句子的长度可变，从1到100个单词，单词可以在句子中的任何顺序出现（但一旦放在句子中，顺序计数），单词可以重复任意次。

我正在寻找一种算法，该算法将采用阈值数并返回阈值以上的句子中出现的n-gram和n-gram出现的句子。

我也对间隙容忍算法很感兴趣，该算法以相同的顺序查找常见词，但两者之间存在间隙。

提前致谢。我希望在StackOverflow的范围内明确说明这个问题。