哪种标记化程序适合执行此操作:
input: "This-something is something."
output: ["] [This] [-] [something] [is] [something] [.] ["]
我尝试使用solr.WordDelimiterFilterFactory
,但这会删除所有特殊字符。还尝试了solr.KeepWordFilterFactory
,其中包含keepwords.txt
中的所有特殊字符。但这也不起作用。
有什么建议吗?我在Solr 3.4。
答案 0 :(得分:2)
不要认为您的特定要求有开箱即用的Tokenizer 您可以根据需求创建一个新的,并且很容易让Solr使用它。