我使用Lucene.net来索引内容&网站上的文件等。索引非常简单,格式如下:
LuceneId - unique id for Lucene (TypeId + ItemId) TypeId - the type of text (eg. page content, product, public doc etc..) ItemId - the web page id, document id etc.. Text - the text indexed Title - web page title, document name etc.. to display with the search results
我有这些选项可以调整它以提供多语言内容:
哪个是最佳选择 - 还是另一个?我之前没有使用多个索引,所以我倾向于第二个。
答案 0 :(得分:2)
我做[2],但我遇到的一个问题是我根据语言不能使用不同的分析器。我已经结合了我想要的语言的停用词,但是我失去了分析器提供的更先进的东西的功能,例如词干等。
答案 1 :(得分:1)
您可以取消选项1和2.
您可以使用一个索引,包含阿拉伯语单词的字段为每个索引创建两个文件:
如果您有字段“文字”可能包含阿拉伯语或英语内容==>