应用错误收集

时间：2012-03-07 21:42:40

标签： lucene cosine-similarity

据我所知，默认术语频率（tf）简单地计算为搜索的特定术语出现在字段中的sqrt次数。因此，包含您正在搜索的术语的多个出现的文档将具有更高的tf并因此具有更高的权重。

我不确定这是否有助于增加文档分数，因为权重更高或减少文档分数，因为它将文档向量移动远离查询向量作为书Hibernate Search in Action似乎在说（第363页）。我承认我真的很难看到文档向量模型如何适应lucene得分方程

答案 0 :(得分：1)

我没有要检查本书，但基本上（如果我们忽略可以在索引时手动设置的不同提升），有三个原因可能会导致某些文档的得分高于（或低于）使用Lucene的默认评分模型和给定查询的其他文档的分数：

这意味着对于两个文档D1和D2以及一个查询的术语T，如果

D2的得分会高于D1。