在solr中索引时从标记中删除额外的额外句点(点)

时间:2013-07-02 09:17:30

标签: solr

当solr索引文档时,我想删除令牌之间的额外句点。 在索引到solr之前,我总是可以使用自定义代码执行此操作。但是有一个标记器或分析器或配置会剥离不必要的时间段(点)吗? 例如:这个维修店非常好......我会推荐给任何想要修理自行车的人......请试一试.....

我经历了多个标记器和分析器。他们似乎都没有为此工作。 我目前正在使用 solr.WhitespaceTokenizerFactory solr.WordDelimiterFilterFactory 以及其他一些过滤器。 由于我使用WordDelimiterFilterFactory的方式,solr正在生成 好,好......,自行车......,自行车,自行车,尝试,试试......

我不希望solr在最后使用 ... 生成令牌。 关于如何在不编写自定义代码的情况下做任何想法?.........

1 个答案:

答案 0 :(得分:1)

你尝试过solr.StandardTokenizerFactory吗?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

我尝试了这个标记器,似乎按预期工作。