从Lucene索引中提取搭配词

时间:2014-02-05 16:28:21

标签: solr lucene text-analysis

我有一个存储在Lucene中的文档索引。我需要从索引中提取所有匹配单词及其频率。我知道有多种算法可以检测给定文档中的并置,但我不知道任何可以与Lucene一起专门用于此任务的现有库。有谁知道任何图书馆?

我知道如何从lucene指数中提取二元语法,但并非所有的二元语都是搭配词。

1 个答案:

答案 0 :(得分:0)

如何使用Shingles生成所有n-gram。然后,使用facets将这些ngrams带回计数?或来自管理部门的术语分析。