我对Apache Solr和Carrot2都很陌生。我试图使用Solr索引很多输入文件。最终目标是对文档进行聚类。
我不清楚聚类是由Solr还是通过carrot2工作台完成的?
有人可以指导我吗?
答案 0 :(得分:1)
可以两种方式完成。
在一个设置中,Carrot2 Workbench可以从Solr获取搜索结果(就像从任何其他搜索引擎一样)并对它们进行聚类。这条路线可能是最容易开始的,您只需要提供Solr服务的URL和字段名称,以便为集群提供内容。
或者,您可以在Solr中配置search results clustering plugin,它将在Solr服务器内执行群集,并将搜索结果群集作为Solr搜索响应的一部分包含在内。
在这两种情况下,群集都应用于存储的文档内容(原始文本),因此将文档聚集在Solr中并没有太大的性能优势,除了减少序列化/反序列化开销之外。
最后,有一个过时的文件澄清了两个Carrot2-Solr integration strategies。