适当的Solr Tokenizer在保留特殊字符的同时对文本进行标记

时间:2011-11-16 20:45:09

标签: solr token tokenize

哪种标记化程序适合执行此操作:

input: "This-something is something."
output: ["] [This] [-] [something] [is] [something] [.] ["]

我尝试使用solr.WordDelimiterFilterFactory,但这会删除所有特殊字符。还尝试了solr.KeepWordFilterFactory,其中包含keepwords.txt中的所有特殊字符。但这也不起作用。

有什么建议吗?我在Solr 3.4。

1 个答案:

答案 0 :(得分:2)

不要认为您的特定要求有开箱即用的Tokenizer 您可以根据需求创建一个新的,并且很容易让Solr使用它。