Xapian vs Lucene.Net - 阿拉伯文档文本搜索

时间:2011-07-14 06:49:05

标签: c# full-text-search lucene.net arabic xapian

我面临着在C#.Net中通过大量阿拉伯语内容文档(PDF和Doc文件)进行文本搜索的问题。

经过大量的搜索,我想出了两个解决方案,

首先,Lucene.Net ,我遇到了以下问题

1-阿拉伯语分析器与Lucene.Net一起使用并找到this,但不知道它是否有效!

2-从文档中提取文本(大约6000个PDF和Doc文件),并在ikvm的帮助下找到了我将在.Net中使用的Tika。 但是,鉴于此解决方案可行,我不知道其性能如何。

其次,Xapian 和我转移到这个解决方案以便使用omega库,但仍然发现了一些问题

1- xapian是否会使用阿拉伯语上下文,或者它也需要阿拉伯语分析器,如果是这样,我将如何处理这个问题

实际上,我无法决定使用阿拉伯语内容和几乎大量数据的解决方案。

非常感谢任何帮助或建议,

谢谢,

萨默尔

1 个答案:

答案 0 :(得分:0)

如果你想使用nLucene,你必须创建阿拉伯语分析器,但是我正在使用Solr并且它可以正常使用阿拉伯语。查看this topic