Question

我在Django项目中使用Elasticsearch DSL库。主要查询是：

s.query("multi_match", query=query, type='phrase', fields=['name', 'title'])

搜索'Joe Gray'会返回名为'Joe Gray'的任何人。但是搜索乔·格雷＆＃39;不会返回'Joe B Gray'或'Joe W Gray'的任何名称。有没有办法可以修改我的查询以按名字和姓氏搜索，但是显示中间姓名的结果？

Answer 1

您不需要查询类型为＆＃34;短语＆＃34;。删除type='phrase'参数可以解决您的问题。指定type='phrase'时，Elasticsearch会使用match_phrase查询匹配整个短语。令牌需要与查询中的匹配位置相同。 multi_match中类型的默认行为是best_fields，对于您的用例应该没问题。

Answer 2

名称搜索可能很棘手。有些事情需要考虑：

顺序很重要，所以我理解为什么你使用短语查询，但是我认为复杂的短语查询不是一个优雅的搜索解决方案。您可以通过创建保留订单的子字段（即无标记化）在索引或查询时提升此值。
大写（区分大小写）可能不会改变名称的含义。
搜索缩写和一些字符规范化。
同义词，例如威廉经常和比尔一样，理查德和迪克一样等等。

所以想一个解决方案。去多个领域是要走的路。你的查询语言是什么？您想让用户想要使用通配符，还是想要制作这个虚拟证明？我假设你选择后一种方法......

您可能希望显示原始名称，并且原始字符串上的匹配应获得最高提升，即"type": "keyword"。请参阅：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-boost.html
但您还希望在名为name.lowercase的子字段中支持区分大小写的搜索（请参阅：https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-keyword-tokenizer.html和https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lowercase-tokenfilter.html）
在编制索引之前创建缩写。我可以认为Joe Bernard Gray可能等同于Joe B. Gray。也许您想要创建一个名为name.normalized的字段，您还可以在Joe B. Gray中为name.normalized添加值Joe Bernard Gray。为name.normalized应用大小写折叠。并且不需要标点符号。 I.B.M可能与IBM使用char filter name.normalized，也可能name.lowercase相同，请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-mapping-charfilter.html
如果您有非英文名称，可能需要使用ascii folding中的name.normalized对字符进行规范化，请参阅https://www.elastic.co/guide/en/elasticsearch/reference/2.4/analysis-asciifolding-tokenfilter.html
或许将Synonym Token Filter添加到name.normalized字段，请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-shingle-tokenfilter.html
最后但并非最不重要的是，使用Shingle Token过滤器在name.normalized中找到多个相同名称的组合，请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-shingle-tokenfilter.html

所以你会：

名称（最高提升），name.lowercase（高提升），name.normalized（无提升）。

通过设置更高级的映射，您可以避免编写复杂的查询。

Elasticsearch使用中间首字母搜索名称

2 个答案: