在RoR中的阿拉伯语全文搜索

时间:2010-03-11 07:56:18

标签: ruby-on-rails arabic full-text-search

我正在尝试为我的RoR应用添加全文搜索功能,但在阿拉伯语方面面临一些问题。 AFAIK,那里没有很多支持阿拉伯语词干,形态学和其他高级全文搜索的搜索引擎。我发现的唯一东西是Lucene和AraMorph标记器。

acts_as_solr插件(solr基于lucene,这个插件与Rails集成)似乎被放弃了,我找不到任何有用的文档。

我查看过sphinx,xapian,ferret和acts_as_searchable,但据我所知,它们都没有提供先进的阿拉伯语搜索功能。

任何帮助都会非常感激

==更新
我有建议使用sphinx,我确实在早期项目中使用它,它工作得很好。但是,它不提供任何高级搜索功能 例如,单词:كتاب(book),مكتبة(library)和كاتب(writer)都是从同一个词كتب派生的。我希望能够搜索“作家”并获得从同一词干派生的所有单词的结果 此外,我希望搜索考虑到常见的阿拉伯语听写风格。有些人使用“hamza”(همزة)而有些人则没有。其他人用字母“taa marboota”(التاءالمربوطة)写字,而其他人使用字母“haa”(الهاء)。一个好的阿拉伯搜索引擎应该意识到这些微妙的差异并寻找它们。

使用狮身人面像,你只能得到你搜索的内容,而我发现用阿拉伯语支持这些事情的唯一引擎是Lucene和AraMorph tokenizer。但是,acts_as_solr(rails的lucene插件)被放弃了。所以我的问题是:对于任何搜索引擎,还有其他任何这样的标记化器吗? KandadaBoggu提到太阳黑子,我会给它一个回答,并回复

2 个答案:

答案 0 :(得分:1)

对于Solr使用SunspotSunspot Rails

对于Sphinx,请使用Thinking Sphinx

这两款宝石都非常出色并且拥有庞大的安装基础。我在几个项目中使用过ThinkingSphinx,我强烈推荐它。

答案 1 :(得分:1)

你应该通过扩展Thinking Sphinx选项来试试这个

阅读本文:http://www.expressionlab.com/2008/11/19/thinking-sphinx-in-arabic-unicode