标签: regex elasticsearch
我需要自定义一个tokenizer(或稍后在流中添加一个过滤器),以便在满足某些条件时将多个令牌合并为一个: 我想使用标准的标记器,但有两个单词“&”中间的符号组合成一个标记。
例: 字符串R & D应最终作为标记r d。标准标记器正在删除“&”,从而产生单独的标记r,d。空白标记生成器会生成三个标记R,&,D。
R & D
r d
r
d
R
&
D
我不能只使用关键字标记符然后删除“&”因为我确实需要在更长的文本中工作(这就是为什么我想从默认的标准标记器开始)