我找到了以下关于群集间和群集内距离的公式,我不确定我是否理解它们是如何工作的。
群集间距离
上面的公式中不应该有平方根吗?
群集间和群集内:
为什么j指数从N + 1开始?而不是从1到N2?
哪一个是正确的?或者有任何等价物吗?或者我应该寻找质心之间的距离?看起来很简单。群集内距离怎么样?
我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation更难理解。
我需要计算这个距离以便正确分组颜色以创建减少的调色板,所以我认为这些距离越准确,灌浆越准确(公式而不是质心之间的距离)群集间的距离)。矢量是三维的(RGB分量)。
答案 0 :(得分:2)
许多算法并不真正使用“距离”。
k-means例如最小化方差,这是您在此处看到的平方和。现在,平方和是平方欧几里德距离,因此可以说这个算法也试图最小化欧几里德距离;但算法的“自然”公式不使用欧几里德距离,而是使用平方和。如果我没有弄错的话,同样也适用于Ward聚类,你应该使用方差计算它,而不是欧几里德距离。
请注意,如果您最小化z ^ 2,并且z不能为负,那么您还最小化了z。