多个参数上的Carrot2集群

时间:2011-07-12 13:39:09

标签: search solr full-text-search carrot2

喂,

我正在使用SolE和Carrot2的SearchEngine。

一切都很好但是胡萝卜做了一件我无法理解的奇怪的事情。 我想从Solr获得结果并使用Carrot对它们进行聚类。我集成了所有内容并且它运行良好,但Carrot只集中了我的一个属性。匹配结果而没有其他属性的那个。像:

数据

姓名:彼得 镇:伦敦 爱好:高尔夫,滑雪

名字:亚瑟 镇:柏林 爱好:高尔夫,骑自行车

名称:巴黎 镇:伦敦 爱好:高尔夫,徒步旅行

搜索:高尔夫

群集如: 滑雪 骑自行车 远足

..但不是伦敦。

这不会让我自己,但是当我使用CarrotClusteringWorkbench时,它会集中在其他参数上。

首先,我尝试将配置从工作台导出到Solrconfig,但它没有改变任何内容。 Solr使用配置,但它们都没有改变这个问题。

任何人都可以帮助我或者实现它吗?

1 个答案:

答案 0 :(得分:0)

您需要在solrconfig.xml中将字段名称设置为群集。要在Carrot2 Clustering Workbench中复制适合您的配置,请将它们放在您的群集请求处理程序中(或在查询URL中提供):

<!-- In Workbench this is "Title field name" -->
<str name="carrot.title">name</str>

<!-- In Workbench this is "Summary field name" -->
<str name="carrot.snippet">features</str>

通常,Carrot2最适合使用自然/非结构化文本,例如搜索结果,文档摘要或内容。如果您的字段包含表示某些结构化数据的字符串,那么这些集群可能会远离您所期望的(以及专用集群算法可能产生的内容)。