solr中keepwordfilterfactory的tokenizer

时间:2013-01-23 12:13:18

标签: solr lucene tokenize solr4 filterfactory

我想使用solr keepwordfilterfactory但没有为此获取适当的标记生成器。用例是,我有一个字符串hi i am coming, bla-bla go out.现在,从以下字符串我想保留hi icoming,bla-bla等字样。那么什么标记器与过滤器工厂一起使用,以便我能够在方面得到任何这样的组合。尝试了不同的标记器但没有得到确切的结果。我正在使用solr 4.0。是否存在基于所使用的守备词进行标记的任何此类标记化器。

1 个答案:

答案 0 :(得分:1)

标记化的“规则”是什么(将长文本拆分为单个标记)。上面的例子似乎暗示有时你有单个单词标记,有时候还有多个单词(“hi i”)。多字案例在这里存在问题,但您可以通过组合ShingleFilterFactory来为您提供多字标记以及原始标记,然后只保留您想要的项目。

我不确定KeepWord过滤器是否能正确处理多字符串。如果没有,您可能希望在木瓦过程中有一个特殊的分隔符,然后正则表达式将其作为最后一步过滤回空间。