标签: lucene cosine-similarity
据我所知,默认术语频率(tf)简单地计算为搜索的特定术语出现在字段中的sqrt次数。因此,包含您正在搜索的术语的多个出现的文档将具有更高的tf并因此具有更高的权重。
我不确定这是否有助于增加文档分数,因为权重更高或减少文档分数,因为它将文档向量移动远离查询向量作为书Hibernate Search in Action似乎在说(第363页)。我承认我真的很难看到文档向量模型如何适应lucene得分方程
答案 0 :(得分:1)
我没有要检查本书,但基本上(如果我们忽略可以在索引时手动设置的不同提升),有三个原因可能会导致某些文档的得分高于(或低于)使用Lucene的默认评分模型和给定查询的其他文档的分数:
这意味着对于两个文档D1和D2以及一个查询的术语T,如果
D2的得分会高于D1。