用于双引号的Solr PatternTokenizer正则表达式

时间:2017-03-20 13:06:12

标签: java regex solr

我想使用"使用PatternTokenizer作为输入的标记seperatior。我在schema.xml中的设置是以下

<tokenizer class="solr.PatternTokenizerFactory" pattern="[\s\.,!(){\[\]:}\"]+"/>

但自从第二次&#34;是错误的关闭模式(Solr不能从它开始)。如何实现我想要的输出?

1 个答案:

答案 0 :(得分:2)

您需要将行更新为

pattern="[\s.,!(){\[\]:}&quot;]+"

必须用XML实体替换文字引号。

作为替代方案,您可以使用正则引擎正确解析的\u0022作为文字双引号。