修改
Solr可以进行模糊场崩溃吗? IE会折叠具有相似值的字段,而不是相同的字段吗?
我认为它可以,但现在我不确定,这使我的原始问题无效。
原始问题
对于大量给定的值,我需要确定哪个值最常见。所有值的集合将随时间而变化,因此我可以预期输出也可能随时间而变化。
我收集Solr可以做“字段折叠”以按给定字段对结果进行分组,具有相似的容差。是否有可能,甚至是恰当的,仅仅使用Solr来折叠场,以获得最常见的价值?我们在业务的其他部分使用Solr,利用现有代码而不是自制酿造定制解决方案会很好。
答案 0 :(得分:2)
不,solr不支持模糊崩溃。 (至少不是基于维基上记录的内容)
Solr 4.0支持group.func
,它允许您根据FunctionQuery的结果对结果进行分组,因此有可能在某个时间点创建一个函数来获得您想要的大致结果,但现有的功能都不会做你想要的。
但是,Solr确实支持结果clustering,这可能适用于您的用例。使用Carrot2完成群集。如果将胡萝卜使用的字段限制为单个字段,则可能会得到与“模糊聚类”类似的结果,但是您对胡萝卜所做的操作的控制远远少于对字段折叠的控制。
对于普通文档,您可能希望通过胡萝卜分析所有字段,例如:
carrot.title=my_title&carrot.snippet=my_title,my_description
但是,如果您有一个manufacturer
字段,其字符或标点符号略有不同,则可能只为胡萝卜提供title
和snippet
的单个字段:
carrot.title=manufacturer&carrot.snippet=manufacturer