K意味着聚类超过500万个载体

时间:2010-08-04 08:54:12

标签: algorithm cluster-analysis

我遇到了一个真正的问题。我需要为500万个向量做一些Kmeans聚类,每个向量包含大约32个cols。 我尝试了需要Linux的Mahout,我在Windows上,我不能使用Linux操作系统和任何类型的模拟器。

任何人都可以建议一个可扩展到5M向量的KMeans聚类算法,并且可以快速收敛吗?

我测试了一些,但他们不会扩展。这意味着它们很慢并且需要永远完成。

由于

1 个答案:

答案 0 :(得分:2)

好的,那么谁想要为大规模数据集进行聚类,唯一的方法就是使用Mahout。 IT需要一个Linux平台。所以我不得不使用虚拟盒,在其上放置Ubuntu然后使用Mahout。设置Mahout是一个漫长的过程,但我使用的两个链接如下。

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)