我正在与Solr一起使用nutch来开发阿拉伯语文本的搜索引擎。我需要在我的阿拉伯语文本上实现一个词干分析器,并且在Solr Stemmer上进行serching时,我发现它提供了这两个过滤器
<filter class="solr.ArabicNormalizationFilterFactory"/>
<filter class="solr.ArabicStemFilterFactory"/>
我尝试了但却不明白他们做了什么..所以请任何人可以帮我一些例子?
并做到这两点:
العملاتStemmed toعملة
البساتين,بساتينكمStemmed toبستان
谢谢你。答案 0 :(得分:1)
您可以在此处找到一些详细信息:http://lucene.apache.org/core/3_6_0/api/contrib-analyzers/org/apache/lucene/analysis/ar/ArabicStemmer.html
那说:
词干定义为: