在我的情况下,我想从主要包含阿拉伯语单词的文档中过滤掉所有英语单词。
答案 0 :(得分:0)
假设文本是Unicode格式,英文和阿拉伯字母使用不同的字符,您可以使用正则表达式过滤掉它们。
因此,在Solr中,您将使用PatternReplaceFilterFactory和标准Java正则表达式之类的东西。请注意,Java's implementation实际上非常深,并且支持使用Unicode标准范围的脚本,块和其他快捷方式。
Solr还有一些ICU过滤器和标记器,但它们更适用于复杂字符的音译,转换和规范化。