基于solr字段的solr聚类,包括地理空间位置字段

时间:2014-01-06 18:43:43

标签: solr lucene carrot2

尝试使用carrot2进行结果集聚类。关于此,我有几个问题。

a)我们可以根据solr中的特定字段对Solr / Lucene中的文档进行聚类吗?比如基于特定字段权重的基于名称,人名和地理距离位置(纬度,长度)的群集?

b)我的聚类用例并不是真正的在线,它更像是一个批处理用例,因为我们仍然有这个1K max no的限制。结果?

1 个答案:

答案 0 :(得分:0)

Carrot2仅根据文档的自然文本执行群集。对于有意义的聚类,人名可能太短; Carrot2不适用于地理距离和其他数值数据。

1k限制/建议基于Carrot2的设计目标:以足够快的速度对小型文本集合(例如搜索结果)进行聚类,以便可以在线完成该过程。 Carrot2适用于大约1k文档的集合,但不会超过数千个文档。