标签: solr lucene text-analysis
我有一个存储在Lucene中的文档索引。我需要从索引中提取所有匹配单词及其频率。我知道有多种算法可以检测给定文档中的并置,但我不知道任何可以与Lucene一起专门用于此任务的现有库。有谁知道任何图书馆?
我知道如何从lucene指数中提取二元语法,但并非所有的二元语都是搭配词。
答案 0 :(得分:0)
如何使用Shingles生成所有n-gram。然后,使用facets将这些ngrams带回计数?或来自管理部门的术语分析。