应用错误收集

时间：2010-08-04 08:54:12

标签： algorithm cluster-analysis

我遇到了一个真正的问题。我需要为500万个向量做一些Kmeans聚类，每个向量包含大约32个cols。我尝试了需要Linux的Mahout，我在Windows上，我不能使用Linux操作系统和任何类型的模拟器。

任何人都可以建议一个可扩展到5M向量的KMeans聚类算法，并且可以快速收敛吗？

我测试了一些，但他们不会扩展。这意味着它们很慢并且需要永远完成。

由于

答案 0 :(得分：2)

好的，那么谁想要为大规模数据集进行聚类，唯一的方法就是使用Mahout。 IT需要一个Linux平台。所以我不得不使用虚拟盒，在其上放置Ubuntu然后使用Mahout。设置Mahout是一个漫长的过程，但我使用的两个链接如下。