如何在查询时应用同义词而不是Elasticsearch

时间:2017-02-06 15:39:19

标签: elasticsearch

根据the elasticsearch reference documentation,可以:

  

可以在索引时或查询时应用扩展。每个都有优点(⬆)︎和缺点(⬇)︎。何时使用归结为性能与灵活性。

优点和缺点都有意义,对于我的具体用途,我想在查询时使用同义词。我的用例是,我希望允许我系统中的管理员用户策划这些同义词,而无需重新索引更新中的所有内容。此外,我想在不关闭和重新打开索引的情况下这样做。

我认为这是可能的主要原因是这个优势:

  

(⬆)︎可以在不重新索引文档的情况下更新同义词规则。

但是,我找不到任何文档描述如何在查询时应用同义词而不是索引时间。

使用一个具体的例子,如果我执行以下操作(示例被盗并稍微修改自the reference),似乎这将在索引时应用同义词:

/* NOTE: This was all run against elasticsearch 1.5 (if that matters; documentation is identical in 2.x) */

// Create our synonyms filter and analyzer on the index
PUT my_synonyms_test
{
  "settings": {
    "analysis": {
      "filter": {
        "my_synonym_filter": {
          "type": "synonym",
          "synonyms": [
            "queen,monarch"
          ]
        }
      },
      "analyzer": {
        "my_synonyms": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "my_synonym_filter"
          ]
        }
      }
    }
  }
}

// Create a mapping that uses this analyzer
PUT my_synonyms_test/rulers/_mapping
{
  "properties": {
    "name": {
      "type": "string"
    },
    "title": {
      "type": "string",
      "analyzer": "my_synonyms"
    }
  }
}

// Some data
PUT my_synonyms_test/rulers/1
{
  "name": "Elizabeth II",
  "title": "Queen"
}

// A query which utilises the synonyms
GET my_synonyms_test/rulers/_search
{
  "query": {
    "match": {
      "title": "monarch"
    }
  }
}

// And we get our expected result back:
{
   "took": 42,
   "timed_out": false,
   "_shards": {
      "total": 1,
      "successful": 1,
      "failed": 0
   },
   "hits": {
      "total": 1,
      "max_score": 1.4142135,
      "hits": [
         {
            "_index": "my_synonyms_test",
            "_type": "rulers",
            "_id": "1",
            "_score": 1.4142135,
            "_source": {
               "name": "Elizabeth II",
               "title": "Queen"
            }
         }
      ]
   }
}

所以我的问题是:我怎么能修改上面的例子,以便我在查询时间使用同义词?

或者我是否完全吠叫了错误的树,你能把我指向别的地方吗?我已经查看了https://stackoverflow.com/a/34210587/2240218https://stackoverflow.com/a/18481495/2240218等类似问题的答案中提到的插件,但它们似乎都已经存在了几年且没有维护,所以我更愿意避免这些

4 个答案:

答案 0 :(得分:2)

只需在地图中使用search_analyzer代替analyzer,您的同义词分析器将仅在搜索时使用

PUT my_synonyms_test/rulers/_mapping
{
  "properties": {
    "name": {
      "type": "string"
    },
    "title": {
      "type": "string",
      "search_analyzer": "my_synonyms"       <--- change this
    }
  }
}

答案 1 :(得分:1)

要在QUERY TIME而不是INDEX TIME使用自定义同义词过滤器,首先需要从映射中删除分析器:

PUT my_synonyms_test/rulers/_mapping
{
  "properties": {
    "name": {
      "type": "string"
    },
    "title": {
      "type": "string"
    }
  }
}

然后,您可以使用使用自定义同义词过滤器的分析器作为query_string query的一部分:

GET my_synonyms_test/rulers/_search
{
  "query": {
      "query_string": {
         "default_field": "title",
         "query": "monarch",
         "analyzer": "my_synonyms"
      }
  }
}

我相信query_string查询是唯一允许指定分析器的查询,因为它使用查询解析器来解析其内容。

正如您所说,仅在查询时使用分析器时,您不需要对同义词集合的每次更改重新编制索引。

答案 2 :(得分:0)

除了使用search_analyzer之外,您还可以通过在同义词文件中进行更改后重新启动索引来刷新同义词列表。

以下是重启索引的命令

  

卷曲-XPOST'localhost:9200 / index_name / _close'

     

curl -XPOST'localhost:9200 / index_name / _open'

在此之后,您的同义词列表将自动刷新,而无需重新生成数据。

答案 3 :(得分:0)

我按照这个参考 Elasticsearch — Setting up a synonyms search 来配置 ES 中的同义词