如何在Elasticsearch中匹配前缀

时间:2012-08-24 22:09:17

标签: elasticsearch

让我们说在我的弹性搜索索引中我有一个名为“点”的字段,它将包含一串标点分隔的单词(例如“first.second.third”)。

我需要搜索例如“first.second”然后获取所有条目,其“dots”字段包含一个字符串正好是“first.second”或以“first.second”开头。

我在理解文本查询的工作方式时遇到了问题,至少我无法创建一个能够完成工作的查询。

5 个答案:

答案 0 :(得分:23)

Elasticsearch已经为此类用例创建了Path Hierarchy Tokenizer。以下是如何为索引设置它的示例:

# Create a new index with custom path_hierarchy analyzer 
# See http://www.elasticsearch.org/guide/reference/index-modules/analysis/pathhierarchy-tokenizer.html
curl -XPUT "localhost:9200/prefix-test" -d '{
    "settings": {
        "analysis": {
            "analyzer": {
                "prefix-test-analyzer": {
                    "type": "custom",
                    "tokenizer": "prefix-test-tokenizer"
                }
            },
            "tokenizer": {
                "prefix-test-tokenizer": {
                    "type": "path_hierarchy",
                    "delimiter": "."
                }
            }
        }
    },
    "mappings": {
        "doc": {
            "properties": {
                "dots": {
                    "type": "string",
                    "analyzer": "prefix-test-analyzer",
                    //"index_analyzer": "prefix-test-analyzer", //deprecated
                    "search_analyzer": "keyword"
                }
            }
        }
    }
}'
echo
# Put some test data
curl -XPUT "localhost:9200/prefix-test/doc/1" -d '{"dots": "first.second.third"}'
curl -XPUT "localhost:9200/prefix-test/doc/2" -d '{"dots": "first.second.foo-bar"}'
curl -XPUT "localhost:9200/prefix-test/doc/3" -d '{"dots": "first.baz.something"}'
curl -XPOST "localhost:9200/prefix-test/_refresh"
echo
# Test searches. 
curl -XPOST "localhost:9200/prefix-test/doc/_search?pretty=true" -d '{
    "query": {
        "term": {
            "dots": "first"
        }
    }
}'
echo
curl -XPOST "localhost:9200/prefix-test/doc/_search?pretty=true" -d '{
    "query": {
        "term": {
            "dots": "first.second"
        }
    }
}'
echo
curl -XPOST "localhost:9200/prefix-test/doc/_search?pretty=true" -d '{
    "query": {
        "term": {
            "dots": "first.second.foo-bar"
        }
    }
}'
echo
curl -XPOST "localhost:9200/prefix-test/doc/_search?pretty=true&q=dots:first.second"
echo

答案 1 :(得分:2)

查看prefix queries

$ curl -XGET 'http://localhost:9200/index/type/_search' -d '{
    "query" : {
        "prefix" : { "dots" : "first.second" }
    }
}'

答案 2 :(得分:2)

正如elasticsearch documentation中指出的那样,还有一种更简单的方法:

只需使用:

{
    "text_phrase_prefix" : {
        "fieldname" : "yourprefix"
    }
}

或自0.19.9以来:

{
    "match_phrase_prefix" : {
        "fieldname" : "yourprefix"
    }
}

而不是:

{   
    "prefix" : { 
        "fieldname" : "yourprefix" 
}

答案 3 :(得分:1)

您应该使用商品字符来进行查询,如下所示:

$ curl -XGET http://localhost:9200/myapp/index -d '{
    "dots": "first.second*"
}'

有关语法的更多示例:http://lucene.apache.org/core/old_versioned_docs/versions/2_9_1/queryparsersyntax.html

答案 4 :(得分:1)

我一直在寻找类似的解决方案 - 但只匹配一个前缀。我发现@ imtov的answer让我几乎到了那里,但是换了一次 - 转换分析器:

"mappings": {
    "doc": {
        "properties": {
            "dots": {
                "type": "string",
                "analyzer": "keyword",
                "search_analyzer": "prefix-test-analyzer"
            }
        }
    }
}

而不是

"mappings": {
    "doc": {
        "properties": {
            "dots": {
                "type": "string",
                "index_analyzer": "prefix-test-analyzer",
                "search_analyzer": "keyword"
            }
        }
    }
}

这样添加:

'{"dots": "first.second"}'
'{"dots": "first.third"}'

只会添加这些完整的令牌,而不会存储firstsecondthird令牌。

然后寻找

first.second.anyotherstring
first.second

将只正确返回第一个条目:

'{"dots": "first.second"}'

不完全是你要求的,但不知何故相关,所以我认为可以帮助别人。