Question

我使用leucene.net作为我的网站，它将一些单词索引正确但正确，但它没有索引像“الله”这样的单词！

我已经看到带有Luke的索引文件，它显示“الله”没有编入索引。

我使用ArabicAnalyzer进行索引。

你可以在www.qoranic.com上看到我的网站，如果你搜索“مریم”就可以了，但如果你搜索“الله”就没有显示任何内容。

任何想法都在前进中受到赞赏。

Answer 1

ArabicAnalyzer对该输入进行了一些转换;它会将输入الله转换为له。这是由于ArabicStemFilter（和ArabicStemmer）的使用所记录的......

词干定义为：


删除附加的定冠词，连词和介词。

阻止普通后缀。

这应该不是问题，因为您在搜索时应该通过同一个分析器解析用户提供的查询，生成相同的标记。

以下是我用来查看分析器根据给定输入生成的术语的示例代码。

using System;
using Lucene.Net.Analysis.AR;
using Lucene.Net.Analysis.Tokenattributes;
using System.IO;

namespace ConsoleApplication {
    public static class Program {
        public static void Main() {
            var luceneVersion = Lucene.Net.Util.Version.LUCENE_30;

            var input = "الله";
            var analyzer = new ArabicAnalyzer(luceneVersion);

            var inputReader = new StringReader(input);
            var stream = analyzer.TokenStream("fieldName", inputReader);

            var termAttribute = stream.GetAttribute<ITermAttribute>();
            while(stream.IncrementToken()) {
                Console.WriteLine("Term: {0}", termAttribute.Term);
            }

            Console.WriteLine("Done.");
            Console.ReadLine();
        }
    }
}

您可以通过编写使用Analyzer的自定义ArabicNormalizationFilter来克服此行为（删除词干），就像ArabicAnalyzer一样，但没有调用ArabicStemFilter

public class CustomAnalyzer : Analyzer {
    public override TokenStream TokenStream(String fieldName, TextReader reader) {
        TokenStream result = new ArabicLetterTokenizer(reader);
        result = new LowerCaseFilter(result);
        result = new ArabicNormalizationFilter(result);
        return result;
    }
}

Lucene没有索引一些单词？

1 个答案: