我正在编写一个k均值算法,它采用double [] []来存储位置并返回两个位置集群。
我只是有一个非常快速的问题: 选择初始群集值应该是什么的最佳方法是什么?
我已经尝试过随机化这些值,但这并不总是很有效,我在网上找不到这个问题的好答案。任何帮助深表感谢。
答案 0 :(得分:3)
通常比随机选择更有效的一种流行策略是随机选择第一个值,然后通过从第一个选择中找到最远的数据点来选择第二个值。
然后将选择下一个值与前两个值相距最远,依此类推。
这类似于稍微复杂的初始化算法K-means++。