我想使用solr keepwordfilterfactory
但没有为此获取适当的标记生成器。用例是,我有一个字符串hi i am coming, bla-bla go out.
现在,从以下字符串我想保留hi i
,coming,
,bla-bla
等字样。那么什么标记器与过滤器工厂一起使用,以便我能够在方面得到任何这样的组合。尝试了不同的标记器但没有得到确切的结果。我正在使用solr 4.0
。是否存在基于所使用的守备词进行标记的任何此类标记化器。
答案 0 :(得分:1)
标记化的“规则”是什么(将长文本拆分为单个标记)。上面的例子似乎暗示有时你有单个单词标记,有时候还有多个单词(“hi i”)。多字案例在这里存在问题,但您可以通过组合ShingleFilterFactory来为您提供多字标记以及原始标记,然后只保留您想要的项目。
我不确定KeepWord过滤器是否能正确处理多字符串。如果没有,您可能希望在木瓦过程中有一个特殊的分隔符,然后正则表达式将其作为最后一步过滤回空间。