Solr / Lucene可以做模糊场折叠吗?

时间:2012-06-08 10:45:57

标签: solr lucene grouping similarity collapse

修改

Solr可以进行模糊场崩溃吗? IE会折叠具有相似值的字段,而不是相同的字段吗?

我认为它可以,但现在我不确定,这使我的原始问题无效。

原始问题

对于大量给定的值,我需要确定哪个值最常见。所有值的集合将随时间而变化,因此我可以预期输出也可能随时间而变化。

我收集Solr可以做“字段折叠”以按给定字段对结果进行分组,具有相似的容差。是否有可能,甚至是恰当的,仅仅使用Solr来折叠场,以获得最常见的价值?我们在业务的其他部分使用Solr,利用现有代码而不是自制酿造定制解决方案会很好。

1 个答案:

答案 0 :(得分:2)

不,solr不支持模糊崩溃。 (至少不是基于维基上记录的内容)

Solr 4.0支持group.func,它允许您根据FunctionQuery的结果对结果进行分组,因此有可能在某个时间点创建一个函数来获得您想要的大致结果,但现有的功能都不会做你想要的。

但是,Solr确实支持结果clustering,这可能适用于您的用例。使用Carrot2完成群集。如果将胡萝卜使用的字段限制为单个字段,则可能会得到与“模糊聚类”类似的结果,但是您对胡萝卜所做的操作的控制远远少于对字段折叠的控制。

对于普通文档,您可能希望通过胡萝卜分析所有字段,例如:

carrot.title=my_title&carrot.snippet=my_title,my_description

但是,如果您有一个manufacturer字段,其字符或标点符号略有不同,则可能只为胡萝卜提供titlesnippet的单个字段:

carrot.title=manufacturer&carrot.snippet=manufacturer