elasticsearch中的短语查询会考虑每个组成单词的docFreq吗?

时间:2017-11-15 00:17:51

标签: elasticsearch match-phrase

我正在搜索包含年度公司报告的文档语料库(使用elasticsearch 5.5.1)中的短语。我正在搜索一个短语,查询上下文如下所示:

"query": {
    "bool": {
      "should": [{ "match_phrase": { "content": {"query": "computer vision"}}}

在查看返回结果的解释时,看起来术语频率计算正确(或我期望的)方式,即它返回短语在文档中出现的次数。但是,idf计算会对短语的每个组成单词的结果求和。例如,在短语“计算机视觉”中,它分别计算“计算机”的docFreq和“视觉”的docFeq,并为每个计算日志(1 +(docCount - docFreq + 0.5)/(docFreq + 0.5))字。这不是我所期望的 - 我会认为像术语频率这样的docFreq将基于确切短语的出现次数。任何帮助将非常感激。

0 个答案:

没有答案