通过进一步优先遍历和k-mean ++进行K-means初始化

时间:2018-10-06 22:21:33

标签: machine-learning cluster-analysis k-means

我对k-mean ++初始化感到困惑。我了解k-mean ++选择和最远的数据点作为下一个数据中心。但是离群值呢?用进一步优先遍历初始化和k-mean ++有什么区别?

我看到有人用这种方式解释

  
     

这里是一维示例。我们的观察值为[0,1,2,3,4]。令第一个中心c1为0。下一个中心的概率   群集中心c2是x与|| c1-x || ^ 2成正比。因此,P(c2 = 1)   = 1a,P(c2 = 2)= 4a,P(c2 = 3)= 9a,P(c2 = 4)= 16a,其中a = 1 /(1 + 4 + 9 + 16)。

     

假设c2 = 4。然后,P(c3 = 1)= 1a,P(c3 = 2)= 4a,P(c3 = 3)= 1a,   其中a = 1 /(1 + 4 + 1)。

     

此数组或列表是[0,1,2,4,5,6,100]。显然,在这种情况下100是异常值,在某些时候它将被选作数据中心。有人可以给出更好的解释吗?

1 个答案:

答案 0 :(得分:1)

K均值选择概率为 的点。

但是,是的,在极端离群值的情况下,很可能会选择离群值。

那是 fine ,因为k-means也是如此。最好的SSQ解决方案很可能具有仅包含该点的单元素群集。

如果有这样的数据,则k-means解决方案往往会变得毫无用处,您可能应该选择另一种算法,例如DBSCAN。