显示两个k均值成本函数相等

时间:2017-01-17 03:20:14

标签: algorithm machine-learning cluster-analysis k-means

所以我正在学习用于聚类的k-means算法,并且已经看到了几个可以使用的不同成本函数,特别是$$ J_ {avg} = \ sum_ {i = 0} ^ k \ sum_ {x \ in C_i} d(x,m_j)^ 2 $$$$ J_ {IC} = \ sum_ {i = 0} ^ k \ frac {1} {| C_j |} \ sum_ {x \ in C_i} \ sum_ {x' \ in C_i} d(x,x')^ 2. $$现在我试图表明如果$ m_j = \ frac {1} {C_j} \ sum_ {x \ in C_j} x $然后$ J_ {IC} = 2J_ {avg}。$这对我来说很直观,因为它似乎是到中心点的平均距离和两点之间的平均距离之间的差异(应该是两点之间的差异)中心)。非常感谢任何帮助,谢谢!

1 个答案:

答案 0 :(得分:0)

为了使成本函数等效,它们不必完全相等,只是单调相关,因此优化一个意味着优化另一个。

SUM_ij(Xi-Xj)^ 2 = SUM_ij(Xi-x + x-Xj)^ 2 = SUM_ij(Xi-x)^ 2 +(Xj-x)^ 2 + 2(Xi-x)。( x - Xj)

如果x是Xi的平均值,则SUM_j(x - Xj)= 0,因此点积项消失,您得到平均距离和平方距离之和的连接在我认为你需要的任何两点之间。