改进k均值聚类

时间:2011-01-10 14:53:20

标签: algorithm machine-learning computer-vision k-means

我关于计算机视觉的讲义提到,如果我们知道集群的标准偏差,那么k-means聚类算法的性能可以提高。怎么会这样?

我的想法是,我们可以使用标准差来首先通过基于直方图的分割来提出更好的初始估计。你怎么看?谢谢你的帮助!

1 个答案:

答案 0 :(得分:15)

您的讲师可能会考虑2002 paper by Veenman et al。基本思想是您设置每个群集中允许的最大差异。您从与数据点一样多的集群开始,然后通过

“进化”集群
  • 如果生成的聚类的方差低于阈值
  • ,则合并相邻聚类
  • 如果群集的方差高于阈值
  • ,则隔离“远”的元素
  • 或在相邻群集之间移动一些元素(如果它减少平方误差的总和)

(这种演变充当全局优化程序,并防止初始分配集群的不良后果意味着你有k-means)

总而言之,如果您知道方差,您就知道群集的变化程度,因此更容易实现。检测异常值(通常应该放入不同的簇中)。