我使用leucene.net作为我的网站,它将一些单词索引正确但正确,但它没有索引像“الله”这样的单词!
我已经看到带有Luke的索引文件,它显示“الله”没有编入索引。
我使用ArabicAnalyzer进行索引。
你可以在www.qoranic.com上看到我的网站,如果你搜索“مریم”就可以了,但如果你搜索“الله”就没有显示任何内容。
任何想法都在前进中受到赞赏。
答案 0 :(得分:1)
ArabicAnalyzer
对该输入进行了一些转换;它会将输入الله
转换为له
。这是由于ArabicStemFilter
(和ArabicStemmer
)的使用所记录的......
词干定义为:
- 删除附加的定冠词,连词和介词。
- 阻止普通后缀。
这应该不是问题,因为您在搜索时应该通过同一个分析器解析用户提供的查询,生成相同的标记。
以下是我用来查看分析器根据给定输入生成的术语的示例代码。
using System;
using Lucene.Net.Analysis.AR;
using Lucene.Net.Analysis.Tokenattributes;
using System.IO;
namespace ConsoleApplication {
public static class Program {
public static void Main() {
var luceneVersion = Lucene.Net.Util.Version.LUCENE_30;
var input = "الله";
var analyzer = new ArabicAnalyzer(luceneVersion);
var inputReader = new StringReader(input);
var stream = analyzer.TokenStream("fieldName", inputReader);
var termAttribute = stream.GetAttribute<ITermAttribute>();
while(stream.IncrementToken()) {
Console.WriteLine("Term: {0}", termAttribute.Term);
}
Console.WriteLine("Done.");
Console.ReadLine();
}
}
}
您可以通过编写使用Analyzer
的自定义ArabicNormalizationFilter
来克服此行为(删除词干),就像ArabicAnalyzer
一样,但没有调用ArabicStemFilter
public class CustomAnalyzer : Analyzer {
public override TokenStream TokenStream(String fieldName, TextReader reader) {
TokenStream result = new ArabicLetterTokenizer(reader);
result = new LowerCaseFilter(result);
result = new ArabicNormalizationFilter(result);
return result;
}
}