应用错误收集

从Lucene索引中提取搭配词

时间：2014-02-05 16:28:21

标签： solr lucene text-analysis

我有一个存储在Lucene中的文档索引。我需要从索引中提取所有匹配单词及其频率。我知道有多种算法可以检测给定文档中的并置，但我不知道任何可以与Lucene一起专门用于此任务的现有库。有谁知道任何图书馆？

我知道如何从lucene指数中提取二元语法，但并非所有的二元语都是搭配词。

1 个答案:

答案 0 :(得分：0)

如何使用Shingles生成所有n-gram。然后，使用facets将这些ngrams带回计数？或来自管理部门的术语分析。