Question

所以我在网上找到了一个描述，内容是：

从所有点的中心开始。依次选择离所有中心最远的点作为下一个聚类的中心。

因此，我认为：

center =所有点的平均值

centroid1 =距中心最远的点

centroid2 =距中心AND cencroid1最远的点

centroid3 =距中心AND cencroid1 AND centroid2最远的点。

我的问题是，我应该如何计算例如距中心和质心1最远的点？我是否将它们平均，然后从中间选择最远的点？我是否要计算距中心和质心1的最大距离点，然后再选择一个？如果是这样，那么centroid3会不会等于centroid1或2？

Answer 1

在本文档中，Centroids Initialization for K-Means Clustering using Improved Pillar Algorithm的最远表示和。因此，在第二步中，您需要将与第一个质心的距离相加，然后将距离形成每个点的所有点的平均值，然后选择最大的点。

提供的伪代码中的相关行是

2. Calculate D <- dis(X, m)
...
6. Set i = 1 as counter to determine the i-th initial centroid
7. DM = DM + D
8. Select x <- xargmax(DM) as the candidate for i-th initial centroids

要为其余初始质心选择下一个 x ，将在每个数据点和c之间重新计算D _i（其中i是当前迭代步骤） _i-1。然后将D _i 添加到累积距离度量 DM（DM <-DM + D _i）。

k均值的初始质心

1 个答案: