Question

根据docs，这应该是不可能的

正则表达式不能锚定在令牌的开头或结尾

尽管如此，它似乎对我有用

GET /_analyze
{
  "tokenizer": "whitespace",
  "filter": [
    {
      "type": "pattern_replace",
      "pattern": "(dog)$",
      "replacement": "hot$1"
    }
  ],
  "text": "dog dogs"
}

返回

{
  "tokens" : [
    {
      "token" : "hotdog",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "dogs",
      "start_offset" : 4,
      "end_offset" : 8,
      "type" : "word",
      "position" : 1
    }
  ]
}

请注意，该模式锚定在令牌的末尾，并且不会替换“ dog s ”，因为它不是以“ dog”结尾。

所以我的问题是：我是否缺少某些东西或可以安全使用（文档只是错误的）？

Answer 1

看起来像是错误的文档，Elasticsearch bug为此，已经查看了弹性代码，并且对令牌的开头或结尾没有特殊的处理。

请参考用于该令牌过滤器的this ES code，它称为Lucene令牌过滤器，并且在Elastic和Lucene代码级别上均没有特殊处理。

锚令牌替换模式到令牌末尾

1 个答案: