所以我在网上找到了一个描述,内容是:
从所有点的中心开始。依次选择离所有中心最远的点作为下一个聚类的中心。
因此,我认为:
center =所有点的平均值
centroid1 =距中心最远的点
centroid2 =距中心AND cencroid1最远的点
centroid3 =距中心AND cencroid1 AND centroid2最远的点。
我的问题是,我应该如何计算例如距中心和质心1最远的点?我是否将它们平均,然后从中间选择最远的点?我是否要计算距中心和质心1的最大距离点,然后再选择一个?如果是这样,那么centroid3会不会等于centroid1或2?
答案 0 :(得分:1)
在本文档中,Centroids Initialization for K-Means Clustering using Improved Pillar Algorithm的最远表示和。因此,在第二步中,您需要将与第一个质心的距离相加,然后将距离形成每个点的所有点的平均值,然后选择最大的点。
提供的伪代码中的相关行是
2. Calculate D <- dis(X, m)
...
6. Set i = 1 as counter to determine the i-th initial centroid
7. DM = DM + D
8. Select x <- xargmax(DM) as the candidate for i-th initial centroids
要为其余初始质心选择下一个 x ,将在每个数据点和c之间重新计算D i (其中i是当前迭代步骤) i-1 。然后将D i 添加到累积距离度量 DM(DM <-DM + D i )。