Question

例如，我现在正在这样搜索：

http://localhost:9200/posts/post/_search?q=content:%23sachin

但是，我得到了'sachin'而不是'#sachin'的所有结果。另外，我正在写一个正则表达式来获取术语数。方面看起来像这样：

"facets": {
  "content": {
      "terms": {
        "field": "content",
        "size": 1000,
        "all_terms": false,
        "regex": "#sachin",
        "regex_flags": [
          "DOTALL",
          "CASE_INSENSITIVE"
        ]
      }
    }
}

这不会返回任何值。我认为这与在正则表达式中转义'＃'有关，但我不知道该怎么做。我试图逃避它\和\\，但它没有用。在这方面有谁能帮助我？

Answer 1

本文提供了有关如何使用自定义分析器保存＃和@的信息： https://web.archive.org/web/20160304014858/http://www.fullscale.co/blog/2013/03/04/preserving_specific_characters_during_tokenizing_in_elasticsearch.html

curl -XPUT 'http://localhost:9200/twitter' -d '{
    "settings" : {
        "index" : {
            "number_of_shards" : 1,
            "number_of_replicas" : 1
        },  
        "analysis" : {
            "filter" : {
                "tweet_filter" : {
                    "type" : "word_delimiter",
                    "type_table": ["# => ALPHA", "@ => ALPHA"]
                }   
            },
            "analyzer" : {
                "tweet_analyzer" : {
                    "type" : "custom",
                    "tokenizer" : "whitespace",
                    "filter" : ["lowercase", "tweet_filter"]
                }
            }
        }
    },
    "mappings" : {
        "tweet" : {
            "properties" : {
                "msg" : {
                    "type" : "string",
                    "analyzer" : "tweet_analyzer"
                }
            }
        }
    }
}'

这不涉及方面，但重新定义分析器中这些特殊字符的类型可能有所帮助。

Answer 2

值得考虑的另一种方法是索引一个特殊的（例如＆＃34;保留＆＃34;）字而不是哈希符号。例如：HASHSYMBOLCHAR。确保您将替换＃＆＃39;＃＆＃39;查询中的字符也是如此。

Elasticsearch搜索具有“＃”字符的单词

2 个答案: