是否可以使用正则表达式捕获整个短语以及短语连接中的每个单词?
所以:
smith jones
要返回:
smith,jones,smithjones
此外,由于其他约束(solr PatternTokenizer),我只能使用一个分组。
答案 0 :(得分:1)
看起来你没有一些额外的工作就能做到这一点。使用PatternTokenizerFactory,您只能使用正则表达式的“匹配”部分,因此您无法进行替换。
为什么不创建自己的tokenizer,它使用PatternTokenizer创建的令牌流,然后构建一个它最后返回的连接字符串?