我很难尝试获取基于地址的索引来返回结果与自动完成工作相同,我一直在尝试两种不同的方法,我开始尝试使用nGram和自定义分析器但是我我们一直在努力获得相关结果,以显示人们在使用地址自动填充时的期望。
我关注的第二种方法是看看弹性搜索的完成建议是否更容易上班,但我似乎在每个方向都遇到障碍。
我们根据每个键盘上的输入值发送常规的客户端API调用。
我似乎面临的问题要么是......我没有返回足够相关的结果,如果/当它们相关时,一个额外的字符部分单词可以强制不返回任何结果。
以下地址为例:7 West Hill Gardens, West Hill EX9 6BL
我的文档存储如下:
"id": "1",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"suggest": "7, Westhill Gardens, Bromyard HR74HW"
{
"mappings": {
"addresses": {
"properties": {
"suggest": {
"type": "completion",
"preserve_separators": false,
"analyzer": "standard",
"search_analyzer": "standard"
},
"address": {
"type": "text"
},
"id": {
"type": "keyword"
}
}
}
}
}
注意我在建议者中将preserve_separators
设置为false
以允许西山也匹配为westhill,这对建议者很好但是在我的nGram索引中我不确定我如何启用与映射相同的功能,我相信这可能是我没有返回相关结果的问题的一部分。
使用以下查询时,我使用建议者查询7 westhill gardens
:
{
"suggest": {
"suggestions": {
"prefix": "7 westhill gardens",
"completion": {
"field": "suggest",
"fuzzy": {
"fuzziness": 2 // Also tried with no fuzzy and fuzziness: 1
}
}
}
}
}
返回以下结果:
"address": "7, Westhill Gardens, Brackley NN136AA",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"address": "7, West Hill Gardens, West Hill, Budleigh Salterton EX96BL",
但是,如果我从查询中删除数字7并执行此查询,则不返回任何结果,这是一个关键问题,因为并非所有用户都会使用给定的门牌号开始查询,并且执行搜索west hill gardens
与7 west hill gardens
{
"suggest": {
"suggestions": {
"prefix": "westhill gardens",
"completion": {
"field": "suggest",
"fuzzy": {
"fuzziness": 2
}
}
}
}
}
最后,如果我只查询如下所示的门牌号码,则不会返回任何结果。
{
"suggest": {
"suggestions": {
"prefix": "7 EX9 6BL",
"completion": {
"field": "suggest",
"fuzzy": {
"fuzziness": 2
}
}
}
}
}
我希望有比我更多经验的人可以对最佳方法有什么想法,如果我应该坚持nGrams并尝试使用自定义分析仪/过滤器方法......或者我只是这样做完全错了?!我刚刚开始学习弹性搜索,所以如果我的术语不正确,我会道歉。
答案 0 :(得分:4)
将Completion Suggester更多地视为“以......开头”机制。文档说:“完成建议器是一个所谓的前缀建议器。”因此,通过这种类型的搜索,您可能无法获得所需的一切。
为了使它更接近,一个解决方案是preserve_position_increments
和停用词分析器的组合。首先使用以下设置创建索引:
{
"settings": {
"analysis": {
"analyzer": {
"my_stop_analyzer": {
"type": "stop"
}
}
}
}
}
然后映射为documetn类型:
{
"properties": {
"suggest": {
"type": "completion",
"preserve_separators": false,
"preserve_position_increments": false
},
"address": {
"type": "text"
},
"id": {
"type": "keyword"
}
}
}
然后这个查询:
{
"suggest": {
"suggestions": {
"prefix": "westhill gardens",
"completion": {
"field": "suggest",
"fuzzy": {
"fuzziness": 2
}
}
}
}
}
会导致两者:
"address": "5, West hill Gardens, Bromyard AAA"
"address": "7, Westhill Gardens, Bromyard HR74HW"
但是如果你试图搜索:"prefix": "7 gardens"
- 它不会给你结果(因为这种机制的所谓前缀建议性质)。
可能是另一种选择? nGrams,如前所述,或者你也可以试验query_string
。简单的例子,假设你有一个标准的映射:
{
"properties": {
"suggest": {
"type": "text"
},
"address": {
"type": "text"
},
"id": {
"type": "keyword"
}
}
}
然后使用query_string
:
{
"query": {
"query_string" : {
"default_field" : "suggest",
"query" : "west* Gardens*",
"default_operator": "OR",
"split_on_whitespace": "true",
"fuzziness" : 2
}
}
}
它给我的结果例如:
"address": "267, Westhill Gardens, Bromyard HR74HW",
"address": "5, West hill Gardens, Bromyard AAA",
"address": "1, West hill Bromyard HR74HW"
但是请注意,使用*通配符会导致更差的性能和内存消耗(确保避免在术语开头使用*),但另一方面query_string
是一个非常通用的工具。
正如我以前写过关于NGrams的文章,我将在这里发布第一个想法。
一些初步假设:
映射 - 索引和类型 - 如下所示:
{
"settings": {
"number_of_shards": 1,
"analysis": {
"tokenizer": {
"ngram_tokenizer": {
"type": "nGram",
"min_gram": 3,
"max_gram": 10
}
},
"analyzer": {
"ngram_tokenizer_analyzer": {
"type": "custom",
"tokenizer": "ngram_tokenizer"
}
}
}
},
"mappings": {
"addresses": {
"properties": {
"suggest": {
"type": "text",
"term_vector": "yes",
"analyzer": "ngram_tokenizer_analyzer"
},
"address": {
"type": "text"
},
"id": {
"type": "keyword"
}
}
}
}
}
现在可以索引文档了。您可以通过以下方式检查分析仪的工作原理(感谢“term_vector”:“是”)
GET http://127.0.0.1:9200/sug/addresses/{documentId}/_termvector?fields=suggest
之后查询(这次是Bool Query)非常简单:
{
"query" :
{ "bool" :
{ "must" : [
{ "match" : { "suggest": { "query": "1, Westhil" } } }
]}
}
}
我认为它应该符合您描述的所有要求 - 搜索地址的起始部分,门牌号码或任何其他部分以及空格问题。如果确实有必要,您可以将min_gram
减少到2
。如果您需要了解更多详细信息,请随意提出或按照您的建议打开一个新问题。
答案 1 :(得分:2)
完成建议器仅完成在完成字段中给出的确切术语,因此查询没有" 7"返回零结果。
您对nGrams的解决方案是可行的方法。