我想要执行精确的单词匹配和部分单词/子串匹配。例如,如果我搜索“男士剃须刀”,那么我应该能够在结果中找到“男士剃须刀”。但是在我搜索“en的剃须刀”的情况下,我也应该能够在结果中找到“男士剃须刀”。 我使用以下设置和映射:
索引设置:
PUT /my_index
{
"settings": {
"number_of_shards": 1,
"analysis": {
"filter": {
"autocomplete_filter": {
"type": "edge_ngram",
"min_gram": 1,
"max_gram": 20
}
},
"analyzer": {
"autocomplete": {
"type": "custom",
"tokenizer": "standard",
"filter": [
"lowercase",
"autocomplete_filter"
]
}
}
}
}
}
映射:
PUT /my_index/my_type/_mapping
{
"my_type": {
"properties": {
"name": {
"type": "string",
"index_analyzer": "autocomplete",
"search_analyzer": "standard"
}
}
}
}
插入记录:
POST /my_index/my_type/_bulk
{ "index": { "_id": 1 }}
{ "name": "men's shaver" }
{ "index": { "_id": 2 }}
{ "name": "women's shaver" }
查询:
1。要通过精确词组匹配进行搜索 - > “男人的”
POST /my_index/my_type/_search
{
"query": {
"match": {
"name": "men's"
}
}
}
以上查询在返回结果中返回“men's shaver”。
2。按部分字词匹配搜索 - > “EN的”
POST /my_index/my_type/_search
{
"query": {
"match": {
"name": "en's"
}
}
}
以上查询不返回任何内容。
我也尝试了以下查询
POST /my_index/my_type/_search
{
"query": {
"wildcard": {
"name": {
"value": "%en's%"
}
}
}
}
仍然没有得到任何东西。 我认为这是因为Index上的“edge_ngram”类型过滤器无法找到“部分字/ sbustring匹配”。 我也试过“n-gram”类型的过滤器,但它正在减慢搜索速度。
请建议我如何使用相同的索引设置来实现短语匹配和部分短语匹配。
答案 0 :(得分:58)
要搜索部分字段匹配和完全匹配,如果您将字段定义为“未分析”或关键字(而不是文本),则效果会更好,然后使用通配符。< / p>
要使用通配符查询,请在要搜索的字符串的两端附加*:
POST /my_index/my_type/_search
{
"query": {
"wildcard": {
"name": {
"value": "*en's*"
}
}
}
}
要与不区分大小写一起使用,请使用带有小写过滤器和关键字标记符的自定义分析器。
自定义分析器:
"custom_analyzer": {
"tokenizer": "keyword",
"filter": ["lowercase"]
}
将搜索字符串设为小写
如果您将搜索字符串设为 AsD :将其更改为 * asd *
答案 1 :(得分:2)
@BlackPOP 给出的答案会起作用,但它使用通配符方法,这不是首选,因为它存在性能问题,如果滥用会在 Elastic 集群中产生巨大的多米诺骨牌效应(性能问题)。
我在部分搜索/自动完成方面编写了详细的 blog,涵盖了截至今天(2020 年 12 月)在 Elasticsearch 中可用的最新选项,并考虑了性能。有关更多权衡信息,请参阅 this 答案。
恕我直言,更好的方法是根据用例使用定制的 n-gram tokenizer,它已经具有搜索词所需的标记,因此速度会更快,尽管它的索引大小会更大,但是您大小不会那么昂贵,而且速度会更好,因为您可以更好地控制子字符串搜索的工作方式。
如果您在分词器设置中定义最小和最大克数时保守,也可以控制大小。