我正在创建表格的简单文档索引:
[paragraph-id] < numeric field (monotonically increasing ID value)
[paragraph-text] < medium (~500 word) text field
大约有100K个文档,它们由多线程索引器编制索引,该索引器对文档进行分割和征服,因此它们插入索引的paragraph-id
顺序是随机的。
我的搜索系统的语义是这样的&#34;相关性&#34;或&#34;得分&#34; paragraph-id
(较大的paragraph-id
更相关)仅限 文件。我想完全忽略Lucene内部计算的&#34;得分&#34;对于基于标准指标(如TF或IDF)的文档。
实现这一目标的最佳途径是什么?
我的&#34;哑巴&#34;解决方法是使用巨大的IndexSearcher::search(Query q, Filter f, int max, Sort s)
值(100K,以覆盖所有文档)调用搜索API max
并传递分拣机以按paragraph-id
对结果进行排序。
Lucene 3.0.2版(我知道它已经老了,但这不应该对这个问题很重要)