Elasticsearch / Lucene Regex fquery / query_string不返回所有文档

时间:2015-09-01 00:40:34

标签: regex elasticsearch lucene nest

我目前在Elasticsearch中有这个映射,我正在使用not_analyzed字段编制索引:

PUT /twitter/_mapping/tweet
{
    "tweet": {
        "properties" : {
            "user" : {
                "type" : "string",
                "index": "not_analyzed"
            }
        }
    }
}


PUT /twitter/tweet/1
{
    "user": "CNN"
}
PUT /twitter/tweet/2
{
    "user": "cnn"
}
PUT /twitter/tweet/3
{
    "user": "Cnn"
}
PUT /twitter/tweet/4
{
    "user": "cNN"
}
PUT /twitter/tweet/5
{
    "user": "CnN"
}

我想使用不区分大小写的过滤器来搜索此索引(通过NEST生成,因此在更改此查询语法时不太灵活):

POST /twitter/tweet/_search
{
  "from": 0,
  "size": 10,
  "query": {
    "filtered": {
      "filter": {
        "bool": {
          "must": [
            {
              "fquery": {
                "query": {
                  "query_string": {
                    "query": "user:/[cC][nN][nN]/"
                  }
                }
              }
            }
          ]
        }
      }
    }
  }
}

此查询仅返回1个文档:"user": "cnn"(小写),而不是所有文档。

这是为什么?与"query": "user:CNN"相同的查询返回正确的文档,并使用正确的大小写(大写)。

编辑:另外,如果我使用cnn(小写)删除文档,则查询不会返回任何内容。

编辑2 :如果我的NEST代码存在问题,请使用以下代码生成查询:

// property path would be something like "user". queryTerm would be something like "cnn"
filterDescriptor.Query(
  q =>
    q.QueryString(
      d =>
        d.Query(string.Format("{0}:{1}", propertyPath,
          GetCaseInsentitiveRegexExpression(queryTerm))))); // returns something like /[cC][nN][nN]/

1 个答案:

答案 0 :(得分:1)

您需要设置lowercase_expanded_terms:false。默认情况下,lowercase_expanded_terms设置为true小写的通配符,正则表达式查询。

示例:

POST /twitter/tweet/_search
{
  "from": 0,
  "size": 10,
  "query": {
    "filtered": {
      "filter": {
        "bool": {
          "must": [
            {
              "fquery": {
                "query": {
                  "query_string": {
                    "query": "user:/[Cc][nN][nN]/",
                    "lowercase_expanded_terms": false 

                  }
                }
              }
            }
          ]
        }
      }
    }
  }
}

或者在嵌套代码上,它们就是这些行上的东西

q.QueryString(
      d =>
        d.Query(string.Format("{0}:{1}", propertyPath,
          GetCaseInsentitiveRegexExpression(queryTerm))).LowercaseExpendedTerms(false))