所有启发式方法,如UPGMA,能否在重复分析中提供不同的结果?

时间:2017-12-19 11:03:09

标签: statistics cluster-analysis hierarchical-clustering heuristics

我想知道是否所有启发式方法,但具体地说,如果组没有高度定义,UPGMA或亲和传播可能在重复分析中提供不同的结果。

我的意思是,由于启发式方法是无法确保最优的实用方法,因此在每次重复分析中,如果没有明确的最优,我们可以获得不同的解决方案,是不是?

因此,我想确认所有启发式方法都可能发生这种情况。

提前致谢

1 个答案:

答案 0 :(得分:0)

什么是启发式方法?

我不会将UPGMA称为启发式。它是聚类相似性的定义,因为它是一个定义,它是精确的。但是使用启发式算法可能很难找到此问题的全局最优。就像Lloyd的算法可能找不到k-means的全局最优。

单链接是唯一可以保证找到最佳值的HAC方法,因为它归结为找到最小生成树。然而,MST可能没有唯一定义(然后相同数据集的两个排列将不会给出相同的结果)。并且对数据集的微小改变(或者,例如,移除或添加点)可以产生完全不同的解决方案。所以我宁愿谈论稳定性或稳健性。我不认为我们可以调用任何聚类算法" robust"统计。可能最强大的是k-中位数,因为已知中位数比平均值更稳健。