关于k均值算法的第一个质心应该是“随机的”吗?

时间:2018-07-23 04:43:43

标签: cluster-analysis k-means

对于k均值。

如果2个初始数据集成为质心值,那么它将产生簇1,而簇2会产生值0 ...为什么?

这不是一件奇怪的事吗?

测量质心到距离本身的距离?

就像测量从美国到美国本身的距离... 是否对k均值算法中的步骤进行了说明。 尤其是在“确定质心的值时,质心的初始值是随机完成的”这一短语。

谢谢!

1 个答案:

答案 0 :(得分:0)

通常所有初始质心都是随机的(今天我们经常使用聪明的随机技术,例如k-means ++)。

使用全局平均值初始化所有质心是 bad 。永远不要这样做! 因为显然每个点到每个中心的距离都相同。然后,通常所有点都将分配到第一个群集(然后将不移动),而所有其他点将为空。这是 最差可能的初始化(出于质量考虑,而不是针对运行时)!