ElasticSearch:使用雪球分析器时的奇怪搜索行为

时间:2012-03-14 11:21:55

标签: elasticsearch snowball

因此,假设我有一个如下定义的ElasticSearch索引:

curl -XPUT 'http://localhost:9200/test' -d '{
  "mappings": {
    "example": {
      "properties": {
        "text": {
          "type": "string",
          "analyzer": "snowball"
        }
      }
    }
  }
}'

curl -XPUT 'http://localhost:9200/test/example/1' -d '{
  "text": "foo bar organization"
}'

当我使用雪球分析器搜索“foo组织”时,两个关键字都按预期匹配:

curl -XGET http://localhost:9200/test/example/_search -d '{
  "query": {
    "text": {
      "_all": {
        "query": "foo organizations",
        "analyzer": "snowball"
      }
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}'

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.015912745,
    "hits": [
      {
        "_index": "test",
        "_type": "example",
        "_id": "1",
        "_score": 0.015912745,
        "_source": {
          "text": "foo bar organization"
        },
        "highlight": {
          "text": [
            "<em>foo</em> bar <em>organization</em>"
          ]
        }
      }
    ]
  }
}

但是当我只搜索“组织”时,我根本没有得到任何结果,这很奇怪:

curl -XGET http://localhost:9200/test/example/_search -d '{
  "query": {
    "text": {
      "_all": {
        "query": "organizations",
        "analyzer": "snowball"
      }
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}'

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

然而,如果我搜索“酒吧”,它仍会点击:

curl -XGET http://localhost:9200/test/example/_search -d '{
  "query": {
    "text": {
      "_all": {
        "query": "bars",
        "analyzer": "snowball"
      }
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}'

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.10848885,
    "hits": [
      {
        "_index": "test",
        "_type": "example",
        "_id": "1",
        "_score": 0.10848885,
        "_source": {
          "text": "foo bar organization"
        },
        "highlight": {
          "text": [
            "foo <em>bar</em> organization"
          ]
        }
      }
    ]
  }
}

我认为“bar”和“组织”之间的区别在于“组织”被称为“器官”,而“bar”则源于它自身。但是,我如何获得正确的行为,以便第二次搜索命中?

2 个答案:

答案 0 :(得分:1)

文字“foo bar organization”被编入索引两次 - 在字段文字 _all 字段中。字段文本使用雪球分析器,字段 _all 使用标准分析器。因此,在分析测试记录后,字段 _all 包含标记:“foo”,“bar”和“organization”。在搜索期间,指定的雪球分析器将“foo”转换为“foo”,将“bars”转换为“bar”并将“organization”转换为“organ”。因此,查询中的单词“foo”和“bars”与测试记录匹配,而术语“组织”则不匹配。突出显示是在每个字段的基础上独立于搜索执行的,这就是为什么在第一个结果中突出显示“组织”一词的原因。

答案 1 :(得分:0)

最好在索引时使用分析器而不是搜索时间。将文本字段映射到雪球分析器然后索引。这将为组织创建一些令牌,包括组织。它适用于我