Solr-查找"重要条款"关于文件子集

时间:2017-07-25 20:19:18

标签: solr tf-idf

我试图获得重要的条款"对于Solr中的文档子集。这可能是也可能不是最佳方式,但我目前正在尝试使用Solr的TF-IDF功能,因为我们将数据存储在Solr中并且它的闪电速度很快。我想限制" DF"通过搜索或过滤器计算我的文档的子集。我试过这个,我正在寻找" apple"在名称字段中:

http://localhost:8983/solr/techproducts/tvrh?q=name:apple&tv.tf=true&tv.df=true&tv.tf_idf=true&indent=on&wt=json&rows=1000

当然,这只给了我有" apple"在名称中,但是我的文档频率给出了整个数据集中的计数,这看起来并不像我想要的那样。我认为索尔可以做到这一点,但也许不会。我愿意接受建议。

谢谢, 阿德里安

1 个答案:

答案 0 :(得分:1)

这是我在积压工作中的作品之一[1]。

您需要的实际上是前景集中的文档频率(您的文档子集)以及背景集(您的语料库)中的文档频率。 Solr不会开箱即用,但你可以继续工作。 弹性搜索有一个模块,您可以从[2]

中获得灵感

[1] https://issues.apache.org/jira/browse/SOLR-9851

[2] https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-significantterms-aggregation.html