Carrot2工作台无法处理大数据

时间:2015-03-11 07:20:51

标签: xml cluster-analysis carrot2

我想使用carrot2工作台来集群我的数据集。我有一个带有65536文档的输入xml文件。我正在使用Lingo聚类算法。

但是当我开始这个过程时,工作台会在几秒钟内返回结果,并且所有文档都在“其他主题”集群中。

我已经使用较小的数据集检查了聚类,我得到了结果。

1 个答案:

答案 0 :(得分:0)

Carrot2 Lingo算法是针对小型数据集而设计的,最多可达一千个左右的文档。对于较大的数据集,您可能需要尝试更好地扩展的STC。

无论算法如何,Carrot2都会处理内存中的所有数据,因此无法扩展到数百万个文档。在后一种情况下,您可能需要查看Apache Mahout,例如。