应用错误收集

solr中keepwordfilterfactory的tokenizer

时间：2013-01-23 12:13:18

标签： solr lucene tokenize solr4 filterfactory

我想使用solr keepwordfilterfactory但没有为此获取适当的标记生成器。用例是，我有一个字符串hi i am coming, bla-bla go out.现在，从以下字符串我想保留hi i，coming,，bla-bla等字样。那么什么标记器与过滤器工厂一起使用，以便我能够在方面得到任何这样的组合。尝试了不同的标记器但没有得到确切的结果。我正在使用solr 4.0。是否存在基于所使用的守备词进行标记的任何此类标记化器。

1 个答案:

答案 0 :(得分：1)

标记化的“规则”是什么（将长文本拆分为单个标记）。上面的例子似乎暗示有时你有单个单词标记，有时候还有多个单词（“hi i”）。多字案例在这里存在问题，但您可以通过组合ShingleFilterFactory来为您提供多字标记以及原始标记，然后只保留您想要的项目。

我不确定KeepWord过滤器是否能正确处理多字符串。如果没有，您可能希望在木瓦过程中有一个特殊的分隔符，然后正则表达式将其作为最后一步过滤回空间。