ElasticSearch短语前缀搜索 - 如何获取匹配的短语?

时间:2014-04-23 22:50:19

标签: autocomplete elasticsearch

我正在使用ElasticSearch构建自动完成功能。当用户输入时,我想显示数据的完成列表,因此用户可以选择一个。例如,如果数据包含以下短语:

very unusual
very unlikely
very useful

和用户输入:

very u

我想显示上面的短语。

我正在使用此查询:

  "query": {
    "multi_match": {
      "query": "very u",
      "fields": [
        "name",
        "description",
        "contentBlocks.caption",
        "contentBlocks.text"
      ],
      "type": "phrase_prefix",
      "max_expansions": 10,
      "cutoff_frequency": 0.001
    }

这与我正在寻找的内容相匹配,但从搜索结果中提取匹配的短语非常尴尬。我一直在使用突出显示,我通过解析突出显示来收集匹配的短语。例如:

    "highlight": {
      "contentBlocks.text": [
        "turned the <em>very</em> <em>unusual</em> doorknob"
      ]
    }

    "highlight": {
      "contentBlocks.text": [
        "invented a <em>very</em> <em>useful</em> mechanism"
      ]
    }

正确的方法是什么?


&#34;短语建议者&#34;也许能够做我所描述的事情,但你怎么能做到这一点并不明显。

我已将感兴趣的字段编入索引(例如,&#34;说明&#34;),如下所示:

  "description" : {
    "index_analyzer" : "snowball_stem",
    "search_analyzer" : "snowball_stem",
    "type" : "string",
    "fields" : {
      "autocomplete" : {
        "index_analyzer" : "shingle_analyzer",
        "search_analyzer" : "shingle_analyzer",
        "type" : "string"
      }
    }
  },

我使用snowball_stem分析器进行搜索,使用shingle_analyzer进行自动完成功能。 shingle_analyzer看起来像这样:

"settings" : {
    "analysis" : {
        "analyzer" : {
            "shingle_analyzer" : {
                "type" : "custom",
                "tokenizer" : "standard",
                "filter" : [
                    "standard",
                    "lowercase",
                    "shingle_filter"
                ],
                "char_filter" : [
                    "html_strip"
                ]
            }
        },
        "filter" : {
            "shingle_filter" : {
                "type" : "shingle",
                "min_shingle_size" : 2,
                "max_shingle_size" : 2
            }
        }
    }
},

短语建议的文档似乎完全面向&#34;拼写纠正&#34;而不是完成。由于我完成之后,我将直接生成器的min_word_length和prefix_length设置为输入文本的长度,在本例中为2。

我根据文档制作了一个建议查询:

{
    "text" : "sa",
    "autocomplete_description" : {
        "phrase" : {
            "analyzer" : "standard",
            "field" : "description.autocomplete",
            "size" : 10,
            "max_errors" : 2,
            "confidence" : 0.0,
            "gram_size" : 2,
            "direct_generator" : [
                {
                    "field" : "description.autocomplete",
                    "suggest_mode" : "always",
                    "size" : 10,
                    "min_word_length" : 2,
                    "prefix_length" : 2
                }
            ]
        }
    }
}

此搜索建议&#34; sa&#34;得出以下结果:

{
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "failed" : 0
  },
  "autocomplete_description" : [ {
    "text" : "sa",
    "offset" : 0,
    "length" : 2,
    "options" : [ {
      "text" : "say",
      "score" : 0.012580795
    }, {
      "text" : "sa",
      "score" : 0.01127677
    }, {
      "text" : "san",
      "score" : 0.0106529845
    }, {
      "text" : "sad",
      "score" : 0.008533429
    }, {
      "text" : "saw",
      "score" : 0.008107899
    }, {
      "text" : "sam",
      "score" : 0.007155634
    } ]
  } ]
}

我希望找到的输入&#34; sa&#34;是以&#34; sa&#34;开头的词。任何长度。为什么它只返回两个或三个字符的单词?为什么它只返回六个选项?我一直在使用的multi_match phrase_prefix查询找到了以&#34; sa&#34;开头的更长的单词,例如&#34; save&#34;,&#34; sassy&#34;,&#34;野生动物园&#34;和&#34;沙拉&#34;。

当我搜索多字文本的建议时,例如&#34; one或&#34; (在数据中发生了很多次),它什么也没找到。 multi_match phrase_prefix查询找到&#34;一个或多个&#34;,&#34;一个或#34;,&#34;一个,或者&#34;,和#34;一个或两个&#34;

我怎样才能让这个建议者做我想做的事?

1 个答案:

答案 0 :(得分:1)

您可以使用completion suggester大致获得所需内容。这个问题的主要问题是它不再具有搜索感知能力。您可以通过添加suggester context来对此进行排序,但它仅适用于过滤器,不会考虑搜索文本。

我知道获得“最佳”行为(上下文感知搜索完成)的唯一方法是执行以下操作:

  • 创建一个suggestions字段,其中文本被标记为您希望用户看到它(可能是标准分析器或可能添加在2-shingle令牌过滤器上)。
  • 假设用户发出了不完整的查询very un。在幕后问题搜索very,然后使用term aggregations获取与搜索上下文匹配的列表字词,但限制使用"include": "un.*"返回的字词。
  • 结果列表看起来像[不寻常,不太可能,不冷却]。

此方法的唯一问题,特别是在分片环境中,它是很多查询,并且您将非常高的基数字段(suggestions)拉入内存。所以...我不知道这是否实际可行。所以也许最好回到完成建议者。如果您尝试其中任何一种,我都有兴趣听听您的体验。