尝试使用carrot2进行结果集聚类。关于此,我有几个问题。
a)我们可以根据solr中的特定字段对Solr / Lucene中的文档进行聚类吗?比如基于特定字段权重的基于名称,人名和地理距离位置(纬度,长度)的群集?
b)我的聚类用例并不是真正的在线,它更像是一个批处理用例,因为我们仍然有这个1K max no的限制。结果?
答案 0 :(得分:0)
Carrot2仅根据文档的自然文本执行群集。对于有意义的聚类,人名可能太短; Carrot2不适用于地理距离和其他数值数据。
1k限制/建议基于Carrot2的设计目标:以足够快的速度对小型文本集合(例如搜索结果)进行聚类,以便可以在线完成该过程。 Carrot2适用于大约1k文档的集合,但不会超过数千个文档。