Lucene索引是否使用tf-idf作为权重?是否可以为每个文档定义自己的统计数据和权重,并将它们“插入”Lucene?
答案 0 :(得分:1)
是的,默认评分算法包含tf-idf,并在TFIDFSiilarity documentation中完整记录。
有多种方法可以自定义文档评分。
Similarity
定义了评分算法。您可以选择另一个(例如BM25Similarity)。Similarity
,通常是通过扩展更高级别的实施,例如DefaultSimilarity
,TFIDFSimilarity
或SimilarityBase
答案 1 :(得分:0)
通过这个例子。它可能有助于您了解如何在索引过程中进行自定义更改
http://lucene.apache.org/core/4_3_1/demo/src-html/org/apache/lucene/demo/IndexFiles.html