使用solr的多语言需求最优索引策略

时间:2013-04-17 10:28:18

标签: search solr lucene wcs

我们将IBM WCS v7用于我们基于电子商务的要求之一,其中嵌入了Apache solr用于基于搜索的实现。

根据新要求,网站将提供多种语言支持,ex-法国版本的网站可以支持英语,法语等(en_FR,fr_FR等)为了配置具有此界面的solr什么应该是使用单个solr核心的最佳索引策略?

我有一些想法1)在schema.xml中使用多个字段的多个语言,2)为不同的语言使用不同的solr核心。

但这些方法似乎并不是最适合当前要求的方法,因为电子商务网站将提供18种语言支持。对每种语言使用不同的字段将非常复杂,并且使用不同的solr代码也不是一个好方法,因为我们需要在所有solr核心中应用配置更改,如果它按照任何要求发生的话。

是否有其他方法,或者有什么办法可以将localeId与索引数据相关联,并根据检测到的语言处理搜索结果?

对此主题的任何帮助都将受到高度赞赏。

谢谢和问候,

Jitendriya Dash

1 个答案:

答案 0 :(得分:1)

这篇文章已经被原版海报和其他人回答 - 只是总结一下作为答案:

推荐的解决方案是为每个语言环境/语言创建一个索引核心。如果目录或内容(例如产品名称,描述,关键字)不同,并且业务更喜欢为每个区域设置单独管理它,则这一点尤其重要。如果适用,这为Solr执行特定于该语言环境的词干和标记化提供了额外的好处。

我已经成为解决方案的一部分,这种解决方案比每个语言环境/语言在同一核心中维护多个字段或文档更受欢迎。我使用的大多数索引核心是6。

还必须记住,索引核心添加需要更新支持流程(产品信息管理系统更新以将目录加载到工作区管理,以阶段传播到重新索引以缓存失效)。