称重Lucene生成的令牌

时间:2011-08-05 05:48:04

标签: lucene token

我需要一个合适的称重算法来返回最相关的令牌以进行查询...我使用Lucene 3.0 ..我想使用tf-idf概念生成令牌?有人可以建议更好的算法或修改tf-idf?

1 个答案:

答案 0 :(得分:0)

Lucene已经为加权实现了TF-IDF变体。请参阅:http://lucene.apache.org/java/2_9_0/api/core/org/apache/lucene/search/Similarity.html

然而,加权不再是最先进的,并且在术语爆发时缺乏一些表现。有人试图在solr 4.0中引入可插拔算法,因为我是最新的。对于某些版本,可以使用bm25的补丁或一些较新的算法。