我是一名计算机科学专业的学生,正在开发一个基于Nutch搜索引擎的项目。我想开发Java算法以更好地索引和搜索阿拉伯语网站。我怎样才能为此目的进行优化,任何想法?
答案 0 :(得分:0)
阿拉伯语有29个字母,其中一些字母表有像Alif(أ)这样的子字母,可以有不同的形式。
如果你设法成为亚字母表容忍,即允许在这些字符上出现拼写错误
e.g。 أحمد和احمد以及إحمد和آحمد尽管它们具有不同的UTF8值,但您可以将它们作为接近的结果。
此外,如果你可以从单词派生根来允许搜索单数,复数,动词,名词等。
所以,如果有人输入قال(表示),你可以在搜索词中包括قول(说)和(يقول)(说)和مقال(谚语)等词。 它需要一个复杂的引擎来做这样的事情
最后,如果你考虑在打字时可选的tashkeel(装饰元音),你可以把它作为一个更具体的搜索,但是可以忽略它
e.g。 رجل可以匹配رجل(意思是男人)或رجل(意思是走路)或رجل(腿)
我希望这会有所帮助