使用sklearn Kmeans时如何避免Kmean局部最优

时间:2018-12-27 03:30:08

标签: python-3.x scikit-learn k-means

我想在生产部署中使用scikit kmean,并且想对kmean.init = k-means ++使用默认设置。我的问题是,在初始化簇质心时,kmeans会落入局部最优的机会是什么?

Notes说“'k-means ++':以一种聪明的方式为k-mean聚类选择初始聚类中心,以加快收敛速度​​。有关更多详细信息,请参阅k_init中的Notes部分。”

是否有关于获得局部最优概率的数据? 如果是这样,我是否应该迭代以获得最小成本函数?

1 个答案:

答案 0 :(得分:-1)

陷入局部最优状态的可能性主要取决于数据的性质。如果将其明确分组,则初始聚类可能不会对最终聚类结果产生太大影响。 May be of use for you

尽管有上述几点,对于高维数据集,最好尝试使用不同的初始聚类尝试10次或更多次迭代,然后选择性能最佳的一个(性能指标之一可能是silhouette-coefficient