标签: hadoop k-means
想知道是否存在Hadoop分布式版K-Means的开源实现?要求Hadoop,因为数据很大,无法保存在一个盒子里。
答案 0 :(得分:2)
您可以使用spark。 Spark实现了KMeans。 Spark使用RDD(弹性分布式数据集)。您的数据在您的群集上分发,每个节点处理最接近的数据。
Spark的表现可能比Mahout更好,因为一些中间过程不会写在HDFS上。
答案 1 :(得分:1)
是的,Mahaout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html