如何为层次聚合聚类选择链接方法?

时间:2015-06-13 23:38:27

标签: machine-learning cluster-analysis hierarchical-clustering

据我所知,HAC在连接功能方面有多种选择。你有:

  • 产生" straggly"簇
  • 产生紧密球形星团的完整连接
  • 平均联系,这是两个
  • 之间的妥协
  • 沃德的方法,它基于方差而不是实际距离

我想弄清楚的是,我怎么知道我想用哪一个?是否有某些数据集在哪里" straggly"簇优于球形簇?或者它更像是我打算如何处理聚类数据?

1 个答案:

答案 0 :(得分:1)

这取决于您的数据。

单链接可以很好地处理干净的数据。

如果您有脏数据,其他链接可能会更好。

沃德与k-means相似。如果你想谈论质心和完全分割成不相交子集的数据,这可能是一个不错的选择。

另一个问题是只有SLINK(单链路)很快。所有其他通常在O(n ^ 3)中工作,因此它们不适用于大型数据集。将此与例如如果做得好,DBSCAN在O(n log n)中运行,或者在O(n)中运行kmeans ...