使用Mahout聚类一个点

时间:2014-09-08 11:29:34

标签: cluster-analysis mahout k-means

我知道Mahout用于批量处理,但我感兴趣的是我是否可以使用它的KMeans,以及如何聚类各个点?

让我们说我们有以下情况

  • 全局群集,对所有数据执行批处理并将质心作为结果
  • 使用全局聚类中心的一点聚类将该点分配给一个聚类 - 它不需要聚类质心重新计算 - 只需将该点指定给现有聚类

我可以使用Mahout执行此操作,还是我必须自己实施?我认为将迭代次数设置为1,并以这种方式分配点,但事实是,KMeans重新计算集群质心,如果新点是异常值,它会从中创建一个新集群。我不想要那个,我实际上想要距离最接近的质心。

目前,似乎不适合使用KMeans,但它应该单独实施......这是正确的吗?

由于

1 个答案:

答案 0 :(得分:0)

您不需要使用Mahout。

K-means将点分配到最近的中心。

所以只需将所有中心(应该很容易放入RAM),并计算每个中心的最小二乘差异。

这只是几个CPU周期,尝试在Mahout上执行此操作绝对没有任何好处 - 开销对于一些k距离计算来说太大了。