SOLR:术语词典的大小以及如何修剪它

时间:2014-11-29 11:27:07

标签: solr lucene

两个相关问题:

Q1。我想找出核心字词大小(术语数量)一词。

我知道怎么做才能列出* .tim的文件大小。例如:

> du -ch *.tim | tail -1
1,3G    total

但是如何将其转换为术语数量?即使粗略估计也足够了。

Q2。搜索中的典型技术是"修剪"删除所有罕见(极低频率)术语的索引。目标不是修剪索引的大小,而是修剪实际术语字典的大小。在SOLR中执行此操作的简单方法是什么,或者在SOLRj中以编程方式执行此操作?

更确切地说:我希望从现有索引(术语词典和索引中的所有其他位置)中删除这些术语(标记)。结果应该类似于1)将术语添加到停用词列表,2)重新索引整个集合,3)从停用词列表中删除术语。

2 个答案:

答案 0 :(得分:1)

  1. 您可以使用管理系统在模式浏览器屏幕下查看条款的数量和分布。您需要加载术语信息: enter image description here
  2. 或者您可以使用Luke来查看Lucene索引。

    1. 目前尚不清楚你的意思是删除'。您可以将它们添加到分析器链中的停用词,例如,如果您想避免索引它们。

答案 1 :(得分:1)

  1. 您可以在Schema Browser页面中获取信息,然后在luke admin handler https://wiki.apache.org/solr/LukeRequestHandler中点击“加载术语信息”,然后点击统计信息组件https://cwiki.apache.org/confluence/display/solr/The+Stats+Component
  2. 要修剪索引,您可以通过执行该字段的方面来执行此操作,并获得低效率的条款。然后,获取文档并更新没有该术语的文档(这可能很困难,因为它取决于您的领域的分析器和标记器)。此外,您可以使用lucene库打开索引并以编程方式执行。