我有一个场景,我必须建立多语言索引。特别是对于两个脚本,这两个脚本完全不同(印地语和英语)。所以他们的词干和lemmatiser不会相互影响。我的索引将包含数百万个文档。 从下面3我使用哪种方法进行索引? :
两种语言的单字段。 优点 - a)由于脚本不同,我可以在其上使用两个分析器。 b)更快的搜索,因为字段将是有限的。 c)需要处理相关性问题。
特定于语言的字段:a)由于字段较多,搜索速度可能较慢。
多核方法:a)处理多语言文档时出现问题。 b)行政管理会很困难。 c)语言特定的搜索将很容易。
答案 0 :(得分:1)
请阅读:Apache Solr multilanguage search,这应该有所帮助。 如果您有货,我会选择2(我正在使用该选项)。
答案 1 :(得分:1)
我建议使用单独的核心。恕我直言,这是正确的方法。
您不必使用Solr的自动语言识别,因为您可以分别为每个核心/语言定义分析器(词形变换器/词干分析器)。 唯一缺点是样板配置元素(两个内核的大多数设置都相同)。
见最近,类似的帖子:
Applying Language Specific Analyzer Dynamically before Solr Indexing