查询基于Elasticsearch地址的索引

时间:2017-07-27 01:47:41

标签: elasticsearch indexing autocomplete lucene mapping

我很难尝试获取基于地址的索引来返回结果与自动完成工作相同,我一直在尝试两种不同的方法,我开始尝试使用nGram和自定义分析器但是我我们一直在努力获得相关结果,以显示人们在使用地址自动填充时的期望。

我关注的第二种方法是看看弹性搜索的完成建议是否更容易上班,但我似乎在每个方向都遇到障碍。

我们根据每个键盘上的输入值发送常规的客户端API调用。

我似乎面临的问题要么是......我没有返回足够相关的结果,如果/当它们相关时,一个额外的字符部分单词可以强制不返回任何结果。

以下地址为例:7 West Hill Gardens, West Hill EX9 6BL

我的文档存储如下:

完成建议者

"id": "1",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"suggest": "7, Westhill Gardens, Bromyard HR74HW"

完成建议映射:

{
  "mappings": {
    "addresses": {
      "properties": {
        "suggest": {
          "type": "completion",
          "preserve_separators": false,
          "analyzer": "standard",
          "search_analyzer": "standard"
        },
        "address": {
          "type": "text"
        },
        "id": {
          "type": "keyword"
        }
      }
    }
  }
}

注意我在建议者中将preserve_separators设置为false以允许西山也匹配为westhill,这对建议者很好但是在我的nGram索引中我不确定我如何启用与映射相同的功能,我相信这可能是我没有返回相关结果的问题的一部分。

使用以下查询时,我使用建议者查询7 westhill gardens

{
  "suggest": {
    "suggestions": {
     "prefix": "7 westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2 // Also tried with no fuzzy and fuzziness: 1
        }
      }
    }
  }
}

返回以下结果:

"address": "7, Westhill Gardens, Brackley NN136AA",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"address": "7, West Hill Gardens, West Hill, Budleigh Salterton EX96BL",

但是,如果我从查询中删除数字7并执行此查询,则不返回任何结果,这是一个关键问题,因为并非所有用户都会使用给定的门牌号开始查询,并且执行搜索west hill gardens7 west hill gardens

相同
{
  "suggest": {
    "suggestions": {
      "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

最后,如果我只查询如下所示的门牌号码,则不会返回任何结果。

{
  "suggest": {
    "suggestions": {
      "prefix": "7 EX9 6BL",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

我希望有比我更多经验的人可以对最佳方法有什么想法,如果我应该坚持nGrams并尝试使用自定义分析仪/过滤器方法......或者我只是这样做完全错了?!我刚刚开始学习弹性搜索,所以如果我的术语不正确,我会道歉。

2 个答案:

答案 0 :(得分:4)

将Completion Suggester更多地视为“以......开头”机制。文档说:“完成建议器是一个所谓的前缀建议器。”因此,通过这种类型的搜索,您可能无法获得所需的一切。

为了使它更接近,一个解决方案是preserve_position_increments和停用词分析器的组合。首先使用以下设置创建索引:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop"
        }
      }
    }
  }
}

然后映射为documetn类型:

{
  "properties": {
    "suggest": {
      "type": "completion",
      "preserve_separators": false,
      "preserve_position_increments": false
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}

然后这个查询:

{
  "suggest": {
    "suggestions": {
     "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

会导致两者:

"address": "5, West hill Gardens, Bromyard AAA"
"address": "7, Westhill Gardens, Bromyard HR74HW"

但是如果你试图搜索:"prefix": "7 gardens" - 它不会给你结果(因为这种机制的所谓前缀建议性质)。

可能是另一种选择? nGrams,如前所述,或者你也可以试验query_string。简单的例子,假设你有一个标准的映射:

{
  "properties": {
    "suggest": {
      "type": "text"
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}

然后使用query_string

{
  "query": {
        "query_string" : {
            "default_field" : "suggest",
            "query" : "west* Gardens*",
            "default_operator": "OR",
            "split_on_whitespace": "true",
            "fuzziness" : 2
    }
  }
}

它给我的结果例如:

"address": "267, Westhill Gardens, Bromyard HR74HW",
"address": "5, West hill Gardens, Bromyard AAA",
"address": "1, West hill Bromyard HR74HW"

但是请注意,使用*通配符会导致更差的性能和内存消耗(确保避免在术语开头使用*),但另一方面query_string是一个非常通用的工具。

*** NGram案例***的更新

正如我以前写过关于NGrams的文章,我将在这里发布第一个想法。

一些初步假设:

  • 输入3个字符后设置自动完成功能(设置:“min_gram”:3)
  • 我们需要分析数字,空格,昏迷等 - 如果用户输入“7,W”,我们需要得到一组结果
  • 用于测试启用ngram向量 - 它允许查看它是如何工作的(设置“term_vector”:“是”),但应该在生产时禁用

映射 - 索引和类型 - 如下所示:

{
   "settings": {
      "number_of_shards": 1,
      "analysis": {
         "tokenizer": {
            "ngram_tokenizer": {
               "type": "nGram",
               "min_gram": 3,
               "max_gram": 10
            }
         },
         "analyzer": {
            "ngram_tokenizer_analyzer": {
               "type": "custom",
               "tokenizer": "ngram_tokenizer"
            }
         }
      }
   },
   "mappings": {
      "addresses": {
         "properties": {
            "suggest": {
               "type": "text",
               "term_vector": "yes",
               "analyzer": "ngram_tokenizer_analyzer"
            },
            "address": {
              "type": "text"
            },
            "id": {
              "type": "keyword"
            }
         }
      }
   }
}

现在可以索引文档了。您可以通过以下方式检查分析仪的工作原理(感谢“term_vector”:“是”)

GET http://127.0.0.1:9200/sug/addresses/{documentId}/_termvector?fields=suggest

之后查询(这次是Bool Query)非常简单:

{ 
  "query" : 
  { "bool" : 
    { "must" : [ 
        { "match" : { "suggest": { "query": "1, Westhil" } } }
    ]}
}

}

我认为它应该符合您描述的所有要求 - 搜索地址的起始部分,门牌号码或任何其他部分以及空格问题。如果确实有必要,您可以将min_gram减少到2。如果您需要了解更多详细信息,请随意提出或按照您的建议打开一个新问题。

答案 1 :(得分:2)

完成建议器仅完成在完成字段中给出的确切术语,因此查询没有" 7"返回零结果。

您对nGrams的解决方案是可行的方法。