Hadoop分发版K-Means?

时间:2015-05-28 08:28:43

标签: hadoop k-means

想知道是否存在Hadoop分布式版K-Means的开源实现?要求Hadoop,因为数据很大,无法保存在一个盒子里。

提前谢谢, 林

2 个答案:

答案 0 :(得分:2)

您可以使用spark。 Spark实现了KMeans。 Spark使用RDD(弹性分布式数据集)。您的数据在您的群集上分发,每个节点处理最接近的数据。

Spark的表现可能比Mahout更好,因为一些中间过程不会写在HDFS上。

答案 1 :(得分:1)

是的,Mahaout有几个k-means实现,例如:mahout.apache.org/users/clustering/k-means-clustering.html