Question

我很难尝试获取基于地址的索引来返回结果与自动完成工作相同，我一直在尝试两种不同的方法，我开始尝试使用nGram和自定义分析器但是我我们一直在努力获得相关结果，以显示人们在使用地址自动填充时的期望。

我关注的第二种方法是看看弹性搜索的完成建议是否更容易上班，但我似乎在每个方向都遇到障碍。

我们根据每个键盘上的输入值发送常规的客户端API调用。

我似乎面临的问题要么是......我没有返回足够相关的结果，如果/当它们相关时，一个额外的字符部分单词可以强制不返回任何结果。

以下地址为例：7 West Hill Gardens, West Hill EX9 6BL

我的文档存储如下：

完成建议者

"id": "1",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"suggest": "7, Westhill Gardens, Bromyard HR74HW"

完成建议映射：

{
  "mappings": {
    "addresses": {
      "properties": {
        "suggest": {
          "type": "completion",
          "preserve_separators": false,
          "analyzer": "standard",
          "search_analyzer": "standard"
        },
        "address": {
          "type": "text"
        },
        "id": {
          "type": "keyword"
        }
      }
    }
  }
}

注意我在建议者中将preserve_separators设置为false以允许西山也匹配为westhill，这对建议者很好但是在我的nGram索引中我不确定我如何启用与映射相同的功能，我相信这可能是我没有返回相关结果的问题的一部分。

使用以下查询时，我使用建议者查询7 westhill gardens：

{
  "suggest": {
    "suggestions": {
     "prefix": "7 westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2 // Also tried with no fuzzy and fuzziness: 1
        }
      }
    }
  }
}

返回以下结果：

"address": "7, Westhill Gardens, Brackley NN136AA",
"address": "7, Westhill Gardens, Bromyard HR74HW",
"address": "7, West Hill Gardens, West Hill, Budleigh Salterton EX96BL",

但是，如果我从查询中删除数字7并执行此查询，则不返回任何结果，这是一个关键问题，因为并非所有用户都会使用给定的门牌号开始查询，并且执行搜索west hill gardens与7 west hill gardens

相同

{
  "suggest": {
    "suggestions": {
      "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

最后，如果我只查询如下所示的门牌号码，则不会返回任何结果。

{
  "suggest": {
    "suggestions": {
      "prefix": "7 EX9 6BL",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

我希望有比我更多经验的人可以对最佳方法有什么想法，如果我应该坚持nGrams并尝试使用自定义分析仪/过滤器方法......或者我只是这样做完全错了？！我刚刚开始学习弹性搜索，所以如果我的术语不正确，我会道歉。

Answer 1

将Completion Suggester更多地视为“以......开头”机制。文档说：“完成建议器是一个所谓的前缀建议器。”因此，通过这种类型的搜索，您可能无法获得所需的一切。

为了使它更接近，一个解决方案是preserve_position_increments和停用词分析器的组合。首先使用以下设置创建索引：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop"
        }
      }
    }
  }
}

然后映射为documetn类型：

{
  "properties": {
    "suggest": {
      "type": "completion",
      "preserve_separators": false,
      "preserve_position_increments": false
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}

然后这个查询：

{
  "suggest": {
    "suggestions": {
     "prefix": "westhill gardens",
      "completion": {
        "field": "suggest",
        "fuzzy": {
          "fuzziness": 2
        }
      }
    }
  }
}

会导致两者：

"address": "5, West hill Gardens, Bromyard AAA"
"address": "7, Westhill Gardens, Bromyard HR74HW"

但是如果你试图搜索："prefix": "7 gardens" - 它不会给你结果（因为这种机制的所谓前缀建议性质）。

可能是另一种选择？ nGrams，如前所述，或者你也可以试验query_string。简单的例子，假设你有一个标准的映射：

{
  "properties": {
    "suggest": {
      "type": "text"
    },
    "address": {
      "type": "text"
    },
    "id": {
      "type": "keyword"
    }
  }
}

然后使用query_string：

{
  "query": {
        "query_string" : {
            "default_field" : "suggest",
            "query" : "west* Gardens*",
            "default_operator": "OR",
            "split_on_whitespace": "true",
            "fuzziness" : 2
    }
  }
}

它给我的结果例如：

"address": "267, Westhill Gardens, Bromyard HR74HW",
"address": "5, West hill Gardens, Bromyard AAA",
"address": "1, West hill Bromyard HR74HW"

但是请注意，使用*通配符会导致更差的性能和内存消耗（确保避免在术语开头使用*），但另一方面query_string是一个非常通用的工具。

* NGram案例*的更新

正如我以前写过关于NGrams的文章，我将在这里发布第一个想法。

一些初步假设：

输入3个字符后设置自动完成功能（设置：“min_gram”：3）
我们需要分析数字，空格，昏迷等 - 如果用户输入“7，W”，我们需要得到一组结果
用于测试启用ngram向量 - 它允许查看它是如何工作的（设置“term_vector”：“是”），但应该在生产时禁用

映射 - 索引和类型 - 如下所示：

{
   "settings": {
      "number_of_shards": 1,
      "analysis": {
         "tokenizer": {
            "ngram_tokenizer": {
               "type": "nGram",
               "min_gram": 3,
               "max_gram": 10
            }
         },
         "analyzer": {
            "ngram_tokenizer_analyzer": {
               "type": "custom",
               "tokenizer": "ngram_tokenizer"
            }
         }
      }
   },
   "mappings": {
      "addresses": {
         "properties": {
            "suggest": {
               "type": "text",
               "term_vector": "yes",
               "analyzer": "ngram_tokenizer_analyzer"
            },
            "address": {
              "type": "text"
            },
            "id": {
              "type": "keyword"
            }
         }
      }
   }
}

现在可以索引文档了。您可以通过以下方式检查分析仪的工作原理（感谢“term_vector”：“是”）

GET http://127.0.0.1:9200/sug/addresses/{documentId}/_termvector?fields=suggest

之后查询（这次是Bool Query）非常简单：

{ 
  "query" : 
  { "bool" : 
    { "must" : [ 
        { "match" : { "suggest": { "query": "1, Westhil" } } }
    ]}
}

}

我认为它应该符合您描述的所有要求 - 搜索地址的起始部分，门牌号码或任何其他部分以及空格问题。如果确实有必要，您可以将min_gram减少到2。如果您需要了解更多详细信息，请随意提出或按照您的建议打开一个新问题。

Answer 2

完成建议器仅完成在完成字段中给出的确切术语，因此查询没有＆＃34; 7＆＃34;返回零结果。

您对nGrams的解决方案是可行的方法。

查询基于Elasticsearch地址的索引

完成建议者

完成建议映射：

2 个答案:

* NGram案例*的更新

查询基于Elasticsearch地址的索引

完成建议者

完成建议映射：

2 个答案:

*** NGram案例***的更新

* NGram案例*的更新