如何开发Nutch以获得更好的阿拉伯搜索技术?

时间:2010-05-02 04:43:14

标签: java algorithm search arabic nutch

我是一名计算机科学专业的学生,​​正在开发一个基于Nutch搜索引擎的项目。我想开发Java算法以更好地索引和搜索阿拉伯语网站。我怎样才能为此目的进行优化,任何想法?

1 个答案:

答案 0 :(得分:0)

阿拉伯语有29个字母,其中一些字母表有像Alif(أ)这样的子字母,可以有不同的形式。

如果你设法成为亚字母表容忍,即允许在这些字符上出现拼写错误

e.g。 أحمد和احمد以及إحمد和آحمد尽管它们具有不同的UTF8值,但您可以将它们作为接近的结果。

此外,如果你可以从单词派生根来允许搜索单数,复数,动词,名词等。

所以,如果有人输入قال(表示),你可以在搜索词中包括قول(说)和(يقول)(说)和مقال(谚语)等词。 它需要一个复杂的引擎来做这样的事情

最后,如果你考虑在打字时可选的tashkeel(装饰元音),你可以把它作为一个更具体的搜索,但是可以忽略它

e.g。 رجل可以匹配رجل(意思是男人)或رجل(意思是走路)或رجل(腿)

我希望这会有所帮助