我知道Mahout用于批量处理,但我感兴趣的是我是否可以使用它的KMeans,以及如何聚类各个点?
让我们说我们有以下情况
我可以使用Mahout执行此操作,还是我必须自己实施?我认为将迭代次数设置为1,并以这种方式分配点,但事实是,KMeans重新计算集群质心,如果新点是异常值,它会从中创建一个新集群。我不想要那个,我实际上想要距离最接近的质心。
目前,似乎不适合使用KMeans,但它应该单独实施......这是正确的吗?
由于
答案 0 :(得分:0)
您不需要使用Mahout。
K-means将点分配到最近的中心。
所以只需将所有中心(应该很容易放入RAM),并计算每个中心的最小二乘差异。
这只是几个CPU周期,尝试在Mahout上执行此操作绝对没有任何好处 - 开销对于一些k距离计算来说太大了。