我遇到了一个真正的问题。我需要为500万个向量做一些Kmeans聚类,每个向量包含大约32个cols。 我尝试了需要Linux的Mahout,我在Windows上,我不能使用Linux操作系统和任何类型的模拟器。
任何人都可以建议一个可扩展到5M向量的KMeans聚类算法,并且可以快速收敛吗?
我测试了一些,但他们不会扩展。这意味着它们很慢并且需要永远完成。
由于
答案 0 :(得分:2)
好的,那么谁想要为大规模数据集进行聚类,唯一的方法就是使用Mahout。 IT需要一个Linux平台。所以我不得不使用虚拟盒,在其上放置Ubuntu然后使用Mahout。设置Mahout是一个漫长的过程,但我使用的两个链接如下。
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)