群集间和群集内距离

时间:2014-08-24 22:09:33

标签: cluster-analysis

我找到了以下关于群集间和群集内距离的公式,我不确定我是否理解它们是如何工作的。

enter image description here

群集间距离

enter image description here

上面的公式中不应该有平方根吗?

群集间和群集内:

enter image description here enter image description here

为什么j指数从N + 1开始?而不是从1到N2?

哪一个是正确的?或者有任何等价物吗?或者我应该寻找质心之间的距离?看起来很简单。群集内距离怎么样?

我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation更难理解。

我需要计算这个距离以便正确分组颜色以创建减少的调色板,所以我认为这些距离越准确,灌浆越准确(公式而不是质心之间的距离)群集间的距离)。矢量是三维的(RGB分量)。

1 个答案:

答案 0 :(得分:2)

许多算法并不真正使用“距离”。

k-means例如最小化方差,这是您在此处看到的平方和。现在,平方和平方欧几里德距离,因此可以说这个算法也试图最小化欧几里德距离;但算法的“自然”公式不使用欧几里德距离,而是使用平方和。如果我没有弄错的话,同样也适用于Ward聚类,你应该使用方差计算它,而不是欧几里德距离。

请注意,如果您最小化z ^ 2,并且z不能为负,那么您还最小​​化了z。

另请参阅:https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering