如何为多种语言环境和内容类型构建Solr核心?

时间:2011-01-04 17:57:56

标签: search full-text-indexing solr

我希望运行一个Solr服务器来统一搜索公共网站的几个不同方面。首先,有多个语言环境(美国,爱尔兰,日本等)和几种类型的内容(论坛,常规网页,帮助页面,产品等) 。)

我希望能够针对单个区域设置执行搜索,但返回多个内容类型的结果,以便我可以将它们显示为选项卡式结果集。

可能的选项:

  • 为每个区域设置都有一个核心,并使用同一索引中的字段区分内容类型。
  • 每种内容类型都有一个核心。
  • 每种内容类型/区域设置组合都有一个核心。
  • 一切的单核/单索引。

考虑:

Solr wiki提到多核开始在大约1000万个文档中获得性能提升,而且我认为即使给出了所有语言环境和内容类型,我们也可能会有很好的表现。然而,将所有数据粉碎成单个索引的解决方案似乎有点混乱,并且可能很难进行分片/缩放。单核心非常适合获得单个结果集,因为我不需要跨核心进行多重协议。

有人使用多核心可以告诉我吗?

1 个答案:

答案 0 :(得分:1)

看起来对这个问题有兴趣,所以我想我会开始用我的一些调查结果来更新答案。

首先,通过语言环境分离核心有一些真正的优势,因为它使每种语言都可以轻松拥有自己的停用词和设置。在我的情况下,我永远不会在区域搜索,所以这是合乎逻辑的。此外,它可能会给我一些速度提升,因为每个核心的索引大小更小。

至于按内核分割内容类型,我仍然在试验一种内容类型,所以当我扩展时我会更新。