我想使用carrot2工作台来集群我的数据集。我有一个带有65536
文档的输入xml文件。我正在使用Lingo聚类算法。
但是当我开始这个过程时,工作台会在几秒钟内返回结果,并且所有文档都在“其他主题”集群中。
我已经使用较小的数据集检查了聚类,我得到了结果。
答案 0 :(得分:0)
Carrot2 Lingo算法是针对小型数据集而设计的,最多可达一千个左右的文档。对于较大的数据集,您可能需要尝试更好地扩展的STC。
无论算法如何,Carrot2都会处理内存中的所有数据,因此无法扩展到数百万个文档。在后一种情况下,您可能需要查看Apache Mahout,例如。