应用错误收集

通过进一步优先遍历和k-mean ++进行K-means初始化

时间：2018-10-06 22:21:33

标签： machine-learning cluster-analysis k-means

我对k-mean ++初始化感到困惑。我了解k-mean ++选择和最远的数据点作为下一个数据中心。但是离群值呢？用进一步优先遍历初始化和k-mean ++有什么区别？

我看到有人用这种方式解释

这里是一维示例。我们的观察值为[0，1，2，3，4]。令第一个中心c1为0。下一个中心的概率   群集中心c2是x与|| c1-x || ^ 2成正比。因此，P（c2 = 1）   = 1a，P（c2 = 2）= 4a，P（c2 = 3）= 9a，P（c2 = 4）= 16a，其中a = 1 /（1 + 4 + 9 + 16）。

假设c2 = 4。然后，P（c3 = 1）= 1a，P（c3 = 2）= 4a，P（c3 = 3）= 1a，   其中a = 1 /（1 + 4 + 1）。

此数组或列表是[0,1,2,4,5,6,100]。显然，在这种情况下100是异常值，在某些时候它将被选作数据中心。有人可以给出更好的解释吗？

1 个答案:

答案 0 :(得分：1)

K均值选择概率为的点。

但是，是的，在极端离群值的情况下，很可能会选择离群值。

那是 fine ，因为k-means也是如此。最好的SSQ解决方案很可能具有仅包含该点的单元素群集。

如果有这样的数据，则k-means解决方案往往会变得毫无用处，您可能应该选择另一种算法，例如DBSCAN。