什么是solr集群组件

时间:2011-06-29 11:39:24

标签: solr cluster-analysis

我刚刚通过solr wiki页面进行群集。但我没有得到使用群集的好处。任何人都可以告诉我实际上是什么,以及它在索引和搜索中的用途。

请回复

1 个答案:

答案 0 :(得分:9)

聚类是一种统计技术,用于将数据分组到属于一起的组中。 在Solr中,这意味着它将尝试对特定查询的结果进行分组并标记这些组。

这可以为您提供有关返回结果性质的其他信息。 示例:如果在非常广泛的文档集上搜索“Python”,则集群组件可能会为“Python编程语言”,“Python蛇”等创建组。

查看Carrot2演示站点进行演示:(Carrot2是Solr附带的集群引擎)

http://search.carrot2.org/stable/search

Solr的聚类组件(Carrot2)使用Solr在结果列表中返回的文本字段对文档进行聚类。 (使用的字段是可配置的。) 它使用文本字段中的术语来构建群集并标记它们。

Carrot2网站上有一个非常有趣的演示文稿:

http://project.carrot2.org/publications/carrot2-dresden-2007.pdf