使用Apache Solr和Carrot2进行聚类

时间:2017-06-03 08:35:19

标签: solr carrot2

我对Apache Solr和Carrot2都很陌生。我试图使用Solr索引很多输入文件。最终目标是对文档进行聚类。

我不清楚聚类是由Solr还是通过carrot2工作台完成的?

有人可以指导我吗?

1 个答案:

答案 0 :(得分:1)

可以两种方式完成。

在一个设置中,Carrot2 Workbench可以从Solr获取搜索结果(就像从任何其他搜索引擎一样)并对它们进行聚类。这条路线可能是最容易开始的,您只需要提供Solr服务的URL和字段名称,以便为集群提供内容。

或者,您可以在Solr中配置search results clustering plugin,它将在Solr服务器内执行群集,并将搜索结果群集作为Solr搜索响应的一部分包含在内。

在这两种情况下,群集都应用于存储的文档内容(原始文本),因此将文档聚集在Solr中并没有太大的性能优势,除了减少序列化/反序列化开销之外。

最后,有一个过时的文件澄清了两个Carrot2-Solr integration strategies