Apache lucene倒排索引

时间:2013-07-10 05:17:18

标签: search lucene inverted-index

Lucene索引是否使用tf-idf作为权重?是否可以为每个文档定义自己的统计数据和权重,并将它们“插入”Lucene?

2 个答案:

答案 0 :(得分:1)

是的,默认评分算法包含tf-idf,并在TFIDFSiilarity documentation中完整记录。

有多种方法可以自定义文档评分。

  • 最简单和最常见的是在索引时在字段上或在查询时在查询字词中包含提升。
  • 许多查询类型会修改用于该查询的评分。示例包括ConstantScoreQueryDisjunctionMaxQuery
  • 您使用的Similarity定义了评分算法。您可以选择另一个(例如BM25Similarity)。
  • 您可以实施自己的Similarity,通常是通过扩展更高级别的实施,例如DefaultSimilarityTFIDFSimilaritySimilarityBase

答案 1 :(得分:0)

通过这个例子。它可能有助于您了解如何在索引过程中进行自定义更改

http://lucene.apache.org/core/4_3_1/demo/src-html/org/apache/lucene/demo/IndexFiles.html