据我所知,HAC在连接功能方面有多种选择。你有:
我想弄清楚的是,我怎么知道我想用哪一个?是否有某些数据集在哪里" straggly"簇优于球形簇?或者它更像是我打算如何处理聚类数据?
答案 0 :(得分:1)
这取决于您的数据。
单链接可以很好地处理干净的数据。
如果您有脏数据,其他链接可能会更好。
沃德与k-means相似。如果你想谈论质心和完全分割成不相交子集的数据,这可能是一个不错的选择。
另一个问题是只有SLINK(单链路)很快。所有其他通常在O(n ^ 3)中工作,因此它们不适用于大型数据集。将此与例如如果做得好,DBSCAN在O(n log n)中运行,或者在O(n)中运行kmeans ...