哪些单词在索引字段中最常见?

时间:2012-08-28 16:23:21

标签: solr

我怎样才能向Solr查询最常见的索引词?例如,给出每个文档的这些字段:

  • 有一位女士确信所有的闪闪发光都是黄金。
  • 黄金比白银更有价值。
  • 这位女士戴着金手镯。

我希望Solr以任何格式返回给我以下输出:

  • gold(3)
  • lady(2)
  • (2)//作为一个停止词,这不是必要的
  • ...

感谢。

3 个答案:

答案 0 :(得分:8)

使用luke请求处理程序

http://wiki.apache.org/solr/LukeRequestHandler

示例:

http://localhost:8983/solr/admin/luke?fl=Your_Indexed_Field&numTerms=500

答案 1 :(得分:4)

Terms Component似乎非常适合这项任务。以下是一篇关于Self Updating Solr Stopwords的文章,该文章使用条款组件查找1000个最常见的索引词并将其添加到停用词文件中。

查找1000个索引关键字(按频率降序排序):

http://url.to.solr/solr/terms?terms.fl=MY_FIELD&terms.limit=1000

答案 2 :(得分:0)

据我所知,这并不是Solr的用例,但可以通过刻面来完成。但不保证性能。确保您的字段设置为正确标记,然后照常运行查询,但最后使用以下附加参数:

&facet=true&facet.field=yourfield

yourfield替换为您存储数据的字段的名称。