需要解释Solr的语言干扰者

时间:2012-05-21 07:46:46

标签: solr arabic stemming

我正在与Solr一起使用nutch来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器,并且在Solr Stemmer上进行serching时,我发现它提供了这两个过滤器

<filter class="solr.ArabicNormalizationFilterFactory"/>

<filter class="solr.ArabicStemFilterFactory"/>

我尝试了但却不明白他们做了什么..所以请任何人可以帮我一些例子?

并做到这两点:

العملاتStemmed toعملة

البساتين,بساتينكمStemmed toبستان

谢谢你。

1 个答案:

答案 0 :(得分:1)

您可以在此处找到一些详细信息:http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html

那说:

词干定义为:

  • 删除附加的定冠词,连词和介词。
  • 阻止普通后缀。