我正在使用ElasticSearch构建自动完成功能。当用户输入时,我想显示数据的完成列表,因此用户可以选择一个。例如,如果数据包含以下短语:
very unusual
very unlikely
very useful
和用户输入:
very u
我想显示上面的短语。
我正在使用此查询:
"query": {
"multi_match": {
"query": "very u",
"fields": [
"name",
"description",
"contentBlocks.caption",
"contentBlocks.text"
],
"type": "phrase_prefix",
"max_expansions": 10,
"cutoff_frequency": 0.001
}
这与我正在寻找的内容相匹配,但从搜索结果中提取匹配的短语非常尴尬。我一直在使用突出显示,我通过解析突出显示来收集匹配的短语。例如:
"highlight": {
"contentBlocks.text": [
"turned the <em>very</em> <em>unusual</em> doorknob"
]
}
"highlight": {
"contentBlocks.text": [
"invented a <em>very</em> <em>useful</em> mechanism"
]
}
正确的方法是什么?
&#34;短语建议者&#34;也许能够做我所描述的事情,但你怎么能做到这一点并不明显。
我已将感兴趣的字段编入索引(例如,&#34;说明&#34;),如下所示:
"description" : {
"index_analyzer" : "snowball_stem",
"search_analyzer" : "snowball_stem",
"type" : "string",
"fields" : {
"autocomplete" : {
"index_analyzer" : "shingle_analyzer",
"search_analyzer" : "shingle_analyzer",
"type" : "string"
}
}
},
我使用snowball_stem分析器进行搜索,使用shingle_analyzer进行自动完成功能。 shingle_analyzer看起来像这样:
"settings" : {
"analysis" : {
"analyzer" : {
"shingle_analyzer" : {
"type" : "custom",
"tokenizer" : "standard",
"filter" : [
"standard",
"lowercase",
"shingle_filter"
],
"char_filter" : [
"html_strip"
]
}
},
"filter" : {
"shingle_filter" : {
"type" : "shingle",
"min_shingle_size" : 2,
"max_shingle_size" : 2
}
}
}
},
短语建议的文档似乎完全面向&#34;拼写纠正&#34;而不是完成。由于我完成之后,我将直接生成器的min_word_length和prefix_length设置为输入文本的长度,在本例中为2。
我根据文档制作了一个建议查询:
{
"text" : "sa",
"autocomplete_description" : {
"phrase" : {
"analyzer" : "standard",
"field" : "description.autocomplete",
"size" : 10,
"max_errors" : 2,
"confidence" : 0.0,
"gram_size" : 2,
"direct_generator" : [
{
"field" : "description.autocomplete",
"suggest_mode" : "always",
"size" : 10,
"min_word_length" : 2,
"prefix_length" : 2
}
]
}
}
}
此搜索建议&#34; sa&#34;得出以下结果:
{
"_shards" : {
"total" : 1,
"successful" : 1,
"failed" : 0
},
"autocomplete_description" : [ {
"text" : "sa",
"offset" : 0,
"length" : 2,
"options" : [ {
"text" : "say",
"score" : 0.012580795
}, {
"text" : "sa",
"score" : 0.01127677
}, {
"text" : "san",
"score" : 0.0106529845
}, {
"text" : "sad",
"score" : 0.008533429
}, {
"text" : "saw",
"score" : 0.008107899
}, {
"text" : "sam",
"score" : 0.007155634
} ]
} ]
}
我希望找到的输入&#34; sa&#34;是以&#34; sa&#34;开头的词。任何长度。为什么它只返回两个或三个字符的单词?为什么它只返回六个选项?我一直在使用的multi_match phrase_prefix查询找到了以&#34; sa&#34;开头的更长的单词,例如&#34; save&#34;,&#34; sassy&#34;,&#34;野生动物园&#34;和&#34;沙拉&#34;。
当我搜索多字文本的建议时,例如&#34; one或&#34; (在数据中发生了很多次),它什么也没找到。 multi_match phrase_prefix查询找到&#34;一个或多个&#34;,&#34;一个或#34;,&#34;一个,或者&#34;,和#34;一个或两个&#34;
我怎样才能让这个建议者做我想做的事?
答案 0 :(得分:1)
您可以使用completion suggester大致获得所需内容。这个问题的主要问题是它不再具有搜索感知能力。您可以通过添加suggester context来对此进行排序,但它仅适用于过滤器,不会考虑搜索文本。
我知道获得“最佳”行为(上下文感知搜索完成)的唯一方法是执行以下操作:
suggestions
字段,其中文本被标记为您希望用户看到它(可能是标准分析器或可能添加在2-shingle令牌过滤器上)。very un
。在幕后问题搜索very
,然后使用term aggregations获取与搜索上下文匹配的列表字词,但限制使用"include": "un.*"
返回的字词。此方法的唯一问题,特别是在分片环境中,它是很多查询,并且您将非常高的基数字段(suggestions
)拉入内存。所以...我不知道这是否实际可行。所以也许最好回到完成建议者。如果您尝试其中任何一种,我都有兴趣听听您的体验。