k均值的初始质心

时间:2018-12-13 15:32:13

标签: algorithm math k-means

所以我在网上找到了一个描述,内容是:

  

从所有点的中心开始。依次选择离所有中心最远的点作为下一个聚类的中心。

因此,我认为:

center =所有点的平均值

centroid1 =距中心最远的点

centroid2 =距中心AND cencroid1最远的点

centroid3 =距中心AND cencroid1 AND centroid2最远的点。

我的问题是,我应该如何计算例如距中心和质心1最远的点?我是否将它们平均,然后从中间选择最远的点?我是否要计算距中心和质心1的最大距离点,然后再选择一个?如果是这样,那么centroid3会不会等于centroid1或2?

1 个答案:

答案 0 :(得分:1)

在本文档中,Centroids Initialization for K-Means Clustering using Improved Pillar Algorithm的最远表示和。因此,在第二步中,您需要将与第一个质心的距离相加,然后将距离形成每个点的所有点的平均值,然后选择最大的点。

提供的伪代码中的相关行是

2. Calculate D <- dis(X, m)
...
6. Set i = 1 as counter to determine the i-th initial centroid
7. DM = DM + D
8. Select x <- xargmax(DM) as the candidate for i-th initial centroids
  

要为其余初始质心选择下一个 x ,将在每个数据点和c之间重新计算D i (其中i是当前迭代步骤) i-1 。然后将D i 添加到累积距离度量 DM(DM <-DM + D i )。