应用错误收集

Hadoop分发版K-Means？

时间：2015-05-28 08:28:43

标签： hadoop k-means

想知道是否存在Hadoop分布式版K-Means的开源实现？要求Hadoop，因为数据很大，无法保存在一个盒子里。

提前谢谢，林

2 个答案:

答案 0 :(得分：2)

您可以使用spark。 Spark实现了KMeans。 Spark使用RDD（弹性分布式数据集）。您的数据在您的群集上分发，每个节点处理最接近的数据。

Spark的表现可能比Mahout更好，因为一些中间过程不会写在HDFS上。

答案 1 :(得分：1)

是的，Mahaout有几个k-means实现，例如：mahout.apache.org/users/clustering/k-means-clustering.html