标签: solr lucene tokenize
我需要为Solr中的源代码文件编写一个标记器,但是没有选择包括自定义JAR。因此,例如:
输入:foo.bar
foo.bar
令牌:'foo', '.', 'bar'
'foo', '.', 'bar'
我如何在schema.xml中有一个自定义标记生成器或过滤器,该标记器或过滤器可以拆分某些字符,但又不能删除该字符?
我尝试过Regex模式令牌生成器,但这会删除分隔符。