我面临着在C#.Net中通过大量阿拉伯语内容文档(PDF和Doc文件)进行文本搜索的问题。
经过大量的搜索,我想出了两个解决方案,首先,Lucene.Net ,我遇到了以下问题
1-阿拉伯语分析器与Lucene.Net一起使用并找到this,但不知道它是否有效!
2-从文档中提取文本(大约6000个PDF和Doc文件),并在ikvm的帮助下找到了我将在.Net中使用的Tika。 但是,鉴于此解决方案可行,我不知道其性能如何。
其次,Xapian 和我转移到这个解决方案以便使用omega库,但仍然发现了一些问题
1- xapian是否会使用阿拉伯语上下文,或者它也需要阿拉伯语分析器,如果是这样,我将如何处理这个问题
实际上,我无法决定使用阿拉伯语内容和几乎大量数据的解决方案。非常感谢任何帮助或建议,
谢谢,
萨默尔