在我的Solr集合中查找最常用的术语

时间:2013-11-19 16:47:49

标签: solr lucene information-retrieval stop-words

我需要在我的Solr集合中识别潜在的停用词。是否有可能找到我的集合中(或至少在给定的分片中)文档频率最高的那些术语?

2 个答案:

答案 0 :(得分:1)

是的,请使用HighFreqTerms,例如:

TermStats[] stats = HighFreqTerms.gethighFreqTerms(reader, 10, "myContentField", new HighFreqTerms.DocFreqComparator());
for (TermStats stat : stats) {
    System.out.println(stat.termtext.utf8ToString() + ",   docfreq:" + stat.docFreq);
    //Or whatever else you want to do with them...
}

Luke也突出显示最常见的术语。

答案 1 :(得分:0)

如果您已经设置了Solr,请使用TermsComponent来获取任何给定字段的术语频率:

http://wiki.apache.org/solr/TermsComponent

如果你有一个默认搜索字段(这是你复制字段的目的地),它应该为你提供所有字段的频率。