我们如何使用SOLR过滤属于某种语言的所有令牌?

时间:2015-06-22 18:50:58

标签: solr information-retrieval

在我的情况下,我想从主要包含阿拉伯语单词的文档中过滤掉所有英语单词。

1 个答案:

答案 0 :(得分:0)

假设文本是Unicode格式,英文和阿拉伯字母使用不同的字符,您可以使用正则表达式过滤掉它们。

因此,在Solr中,您将使用PatternReplaceFilterFactory和标准Java正则表达式之类的东西。请注意,Java's implementation实际上非常深,并且支持使用Unicode标准范围的脚本,块和其他快捷方式。

Solr还有一些ICU过滤器和标记器,但它们更适用于复杂字符的音译,转换和规范化。