k中的迭代意味着聚类

时间:2016-06-20 17:01:17

标签: cluster-analysis k-means

我正在实现k意味着在tensorflow中进行聚类,并成功地使用了从样本点中随机选择质心的函数。然后根据与采样点的距离更新这些质心。

是否始终保证迭代越多越好我得到群集预测,或者有一点之后预测开始出错/异常?

1 个答案:

答案 0 :(得分:1)

通常,K-means求解算法的行为与预期一致,因为它始终收敛于 local 最小值。 (我假设你在谈论Lloyd / Florgy方法)这是一种用于查找局部最小值的统计方法。它可能在一个鞍点处停转,其中一个尺寸被优化但其他尺寸不是。

enter image description here

为了缩短证明的严谨性,它将始终收敛,尽管由于你的功能中的许多鞍点而缓慢。

没有必要让你的预测变得更“错误”。它将更接近您想要的最小值,但最小值可能不是全局。这可能是您关心的问题,因为K-means的随机初始化并不保证会发生这种情况。

缓解这种情况的一种方法是在数据的子组上实际运行K-means,然后获取这些最终点并对它们求平均值,以便为整个数据集上的最终聚类找到一个好的初始化器。

希望这会有所帮助。