我使用k-means聚类和随机初始化来进行聚类识别。算法适用于漂亮的数据。但是,如果我使用具有许多噪声的数据,那么我的k-means算法会失去其稳健性,并为同一数据集上的每次运行提供不同的解决方案。
所以我决定改进我的k-means聚类以最小化Ward标准:
我用c ++ here编写了这个算法。然而,问题是,这种方法非常缓慢,我正在处理每个大约20 000点的集群。
你能给我一个更好的解决方案吗,或者你能帮我加速这个算法吗?
答案 0 :(得分:2)
我终于找到了解决方案。我意识到了:
对我有帮助的是Mean normalization。我做了5x k-means,计算了每次迭代的聚类中心的平均值。最后用计算方法运行k-means作为初始解。