一个非常基本的问题,但有人能告诉我如何在solr中索引时从文档中删除特殊字符吗?我通过了Solr维基,但找不到任何相关内容。我看到了很少的标记器,如WhiteSpaceTokenizerFactory和StandardTokenizerFactory。我在schema.xml中使用WhiteSpaceTokenizerFactory但它似乎没有解决目的。我仍然可以使用" *"和" - "等
答案 0 :(得分:1)
考虑使用标准标记器:
<tokenizer class="solr.StandardTokenizerFactory"/>
它应该删除你提到的字符。
一旦单词被标记化,您可以使用WordDelimiterFilterFactory进行进一步处理,例如拆分大小写和数字,以便更好地匹配。
此外,在处理模式配置时,几乎所有时间都非常有用,是solr的分析页面。它为您提供了许多有价值的反馈。