在每次迭代所有数据点之后,或者在为每个数据点分配集群之后评估新的集群中心是否更好?澄清一下,首选哪两种方法:
答案 0 :(得分:3)
这些或多或少是两种主要方法
两者中哪一个更好?实证研究显示Hartigan方法的多重优势。特别是可以证明,哈蒂根不会比劳埃德更糟糕(每个哈蒂根最佳也是劳埃德最佳,但不是相反)。在http://ijcai.org/papers13/Papers/IJCAI13-249.pdf中有一个很好的理论和实践分析表明,应该遵循第二种方法,特别是如果数据中有许多可能不相关的特征。