我对k-mean ++初始化感到困惑。我了解k-mean ++选择和最远的数据点作为下一个数据中心。但是离群值呢?用进一步优先遍历初始化和k-mean ++有什么区别?
我看到有人用这种方式解释
这里是一维示例。我们的观察值为[0,1,2,3,4]。令第一个中心c1为0。下一个中心的概率 群集中心c2是x与|| c1-x || ^ 2成正比。因此,P(c2 = 1) = 1a,P(c2 = 2)= 4a,P(c2 = 3)= 9a,P(c2 = 4)= 16a,其中a = 1 /(1 + 4 + 9 + 16)。
假设c2 = 4。然后,P(c3 = 1)= 1a,P(c3 = 2)= 4a,P(c3 = 3)= 1a, 其中a = 1 /(1 + 4 + 1)。
此数组或列表是[0,1,2,4,5,6,100]。显然,在这种情况下100是异常值,在某些时候它将被选作数据中心。有人可以给出更好的解释吗?
答案 0 :(得分:1)
K均值选择概率为 的点。
但是,是的,在极端离群值的情况下,很可能会选择离群值。
那是 fine ,因为k-means也是如此。最好的SSQ解决方案很可能具有仅包含该点的单元素群集。
如果有这样的数据,则k-means解决方案往往会变得毫无用处,您可能应该选择另一种算法,例如DBSCAN。