Solr - 删除特殊字符

时间:2014-04-03 07:08:37

标签: solr indexing information-retrieval

一个非常基本的问题,但有人能告诉我如何在solr中索引时从文档中删除特殊字符吗?我通过了Solr维基,但找不到任何相关内容。我看到了很少的标记器,如WhiteSpaceTokenizerFactory和StandardTokenizerFactory。我在schema.xml中使用WhiteSpaceTokenizerFactory但它似乎没有解决目的。我仍然可以使用" *"和" - "等

1 个答案:

答案 0 :(得分:1)

考虑使用标准标记器:

<tokenizer class="solr.StandardTokenizerFactory"/>

它应该删除你提到的字符。

一旦单词被标记化,您可以使用WordDelimiterFilterFactory进行进一步处理,例如拆分大小写和数字,以便更好地匹配。

此外,在处理模式配置时,几乎所有时间都非常有用,是solr的分析页面。它为您提供了许多有价值的反馈。