模糊k均值 - 没有关联,在下一次迭代中如何计算质心?

时间:2012-04-09 05:45:36

标签: algorithm k-means fuzzy

根据Mahout in Action

  

与k-means类似,模糊k-means在数据集上循环,但不是将向量分配给最近的质心,而是计算点与每个聚类的关联度。

如果没有将矢量分配到最近的质心,那么在下一次迭代中如何计算质心?

1 个答案:

答案 0 :(得分:3)

我只是用谷歌搜索模糊k-means,它听起来基本上像EM聚类,这是一个非常广为人知和有用的概念。

这里的事情是没有硬分配。

当一个点选择它应该属于哪个质心时,它会出现属于每个质心的概率(通过考虑它与每个质心的距离并通过它们的累积和来规范这些数字)

当质心决定重新定位的位置时,它没有一个明确定义的属于它的点组,它的平均值可以简单地用于其新位置。相反,它所做的是基于它们属于它的概率来对点进行加权平均。因此,如果只有3个点X,Y和Z以及X和Y属于这个聚类,概率为1.0,而Z属于它的概率为0.5,那么质心的新位置将是

  

(1.0 / 2.5)* X +(1.0 / 2.5)* Y +(0.5 / 2.5)* Z

所以这就是在每次迭代中计算质心的方式。