我是elasticsearch的新手,我正在尝试理解评分算法。
根据此link,ES使用术语频率,即“术语在文档中出现的次数的平方根”。和字段长度范数,这是“字段中术语数量的平方根”。
所以基本上,如果我在我的映射的“title”字段中搜索“ticket”这个词,那么在一个4字的标题中出现1次“ticket”相当于在“an”中出现2次“ticket”。 8个字的标题。
到目前为止它并没有让我感到震惊,但是使用这个公式,标题“门票”的重量也将与标题“门票”的重量相同,而标题“门票”的重量也相同。票” ....
我知道这种情况不太可能,但我只是想了解背后的逻辑。
对我来说,术语频率应该比场长更重要。
我错过了什么吗?或者您认为ES使用的公式有意义吗?