当solr索引文档时,我想删除令牌之间的额外句点。 在索引到solr之前,我总是可以使用自定义代码执行此操作。但是有一个标记器或分析器或配置会剥离不必要的时间段(点)吗? 例如:这个维修店非常好......我会推荐给任何想要修理自行车的人......请试一试.....
我经历了多个标记器和分析器。他们似乎都没有为此工作。 我目前正在使用 solr.WhitespaceTokenizerFactory 和 solr.WordDelimiterFilterFactory 以及其他一些过滤器。 由于我使用WordDelimiterFilterFactory的方式,solr正在生成 好,好......,自行车......,自行车,自行车,尝试,试试......
我不希望solr在最后使用 ... 生成令牌。 关于如何在不编写自定义代码的情况下做任何想法?.........
答案 0 :(得分:1)
http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory
我尝试了这个标记器,似乎按预期工作。