根据docs,这应该是不可能的
正则表达式不能锚定在令牌的开头或结尾
尽管如此,它似乎对我有用
GET /_analyze
{
"tokenizer": "whitespace",
"filter": [
{
"type": "pattern_replace",
"pattern": "(dog)$",
"replacement": "hot$1"
}
],
"text": "dog dogs"
}
返回
{
"tokens" : [
{
"token" : "hotdog",
"start_offset" : 0,
"end_offset" : 3,
"type" : "word",
"position" : 0
},
{
"token" : "dogs",
"start_offset" : 4,
"end_offset" : 8,
"type" : "word",
"position" : 1
}
]
}
请注意,该模式锚定在令牌的末尾,并且不会替换“ dog s ”,因为它不是以“ dog”结尾。
所以我的问题是:我是否缺少某些东西或可以安全使用(文档只是错误的)?
答案 0 :(得分:1)
看起来像是错误的文档,Elasticsearch bug为此,已经查看了弹性代码,并且对令牌的开头或结尾没有特殊的处理。>
请参考用于该令牌过滤器的this ES code,它称为Lucene令牌过滤器,并且在Elastic和Lucene代码级别上均没有特殊处理。