配置ElasticSearch相关性得分,以便优先选择所有单词,而不是某些单词?

时间:2019-02-26 19:15:40

标签: elasticsearch

例如,在搜索“堆栈溢出”时,我希望同时包含“堆栈”和“溢出”的文档的得分要高于仅包含这些单词之一的文档。

现在,我看到的情况是,包含“堆栈” 0次和“溢出” 50次的文档在包含“堆栈” 1次和“溢出” 1次的文档上方排名。

第二个关注点是将具有确切单词而不是单词变体的文档排名更高。例如,包含“堆栈”的文档的排名应高于包含“堆栈”的文档的排名。

第三个问题是将带有相邻单词的文档排名更高。例如,文档“如何使用纸叠溢出”的排名应高于文档“纸叠导致收件箱溢出”的级别。

如果将这三个问题放在一起,这是“堆栈溢出”的所需结果等级的示例:

Example search results

是否可以配置索引或查询以这种方式计算得分?

1 个答案:

答案 0 :(得分:1)

在这里,您试图在单个查询中实现多项目标。首先,您应该尝试了解ES如何为您返回结果。

  1. 包含溢出 50次的文档的排名高于包含“堆栈” 1次和“溢出” 1次的文档的排名,因为ES得分计算基于基于tf/idf的得分计算。很明显,在这种情况下,溢出达到50倍,这比其他2个频率的总和要高得多 另一个文档中的术语。

注意:-您可以按照链接中的说明禁用此计算。

  

如果您不关心术语在字段中出现的频率以及所有   您所关心的是该术语存在,那么您可以禁用该术语   字段映射中的频率:

  1. 由于stemming,您将获得包含术语stacking的结果,如果您不希望包含stacking的文档不出现在搜索结果中,那么从ES获得结果并降低得分之后,就不能以原始形式进行文档处理或进行一些后处理,不确定ES是否开箱即用。

  2. 您想要的第三件事是phrase search

还可以使用explain api来了解ES如何通过查询来计算文档的分数,这将帮助您根据需要构建正确的查询。