K-Mean聚类:评估新的聚类中心

时间:2015-05-18 06:38:46

标签: machine-learning artificial-intelligence data-mining data-analysis

在每次迭代所有数据点之后,或者在为每个数据点分配集群之后评估新的集群中心是否更好?澄清一下,首选哪两种方法:

  1. 您将所有数据点分配给各个群集,然后找到新的群集中心
  2. 或者,您将下一个数据点分配到最近的群集并找到新的群集中心,然后转到下一个点重复...

1 个答案:

答案 0 :(得分:3)

这些或多或少是两种主要方法

  1. 或多或少Lloyd方法 - 迭代所有数据点,将每个数据点分配到最近的群集,然后相应地移动所有中心,重复。
  2. 或多或少是一种Hartigan方法 - 你遍历每个数据点并查看是否更好地将其移动到其他群集(它是否最小化能量/使群集更“密集”),重复直到没有可能的变化
  3. 两者中哪一个更好?实证研究显示Hartigan方法的多重优势。特别是可以证明,哈蒂根不会比劳埃德更糟糕(每个哈蒂根最佳也是劳埃德最佳,但不是相反)。在http://ijcai.org/papers13/Papers/IJCAI13-249.pdf中有一个很好的理论和实践分析表明,应该遵循第二种方法,特别是如果数据中有许多可能不相关的特征。