在使用元启发式算法的聚类分析论文中,许多人已经优化了均方 - 量化误差(MSE)。例如在 [1]和[2]。
我对结果感到困惑。他们告诉他们已经使用MSE作为目标函数。但是他们已经报告了欧几里德距离的簇内总和的结果值。
K-Means最小化群内平方和(WCSS)(来自wiki)[3]。在计算MSE时,在差异度量的情况下使用欧几里德距离时,我无法找到WCSS和MSE之间的区别。
在K-Means的情况下,WCSS被最小化,并且如果我们使用与元启发式算法相同的MSE函数,它们也将最小化它。在这种情况下,K-Means和另一个的欧几里德距离之和如何变化?
如果我优化欧几里德距离的簇内总和,我可以重现论文中显示的结果。
我想我在这里做错了什么。任何人都可以帮助我。
答案 0 :(得分:1)
K-means优化(群内总和)平方和又称方差,即欧氏距离平方和。
如果您研究收敛证明,这很容易看出。
我无法研究你引用的两篇论文。他们是蹩脚的Elsevier和paywalled,我不会支付36美元+32美元来回答你的问题。
更新:我设法获得其中一个的免费副本。他们称之为" MSE,均方量化误差",但他们的方程式是通常的群内平方和,没有涉及的平均值;这个陈述附带了一个阴暗的自我引用,一半的引用是自我引用...似乎这个作者更喜欢称之为与其他人不同。看起来有点像#34;用不同的名字重新发明轮子"对我来说。我仔细仔细检查他们的结果。我并不是说它们是假的,我没有详细检查过。但是"均方误差"没有任何意义;它是平方误差的总和。
更新:如果"群内总和"是指任意两个物体的成对距离之和,请考虑以下因素:
不失一般性,移动数据使得均值为0.(翻译不会改变欧几里德或平方欧氏距离)。
sum_x sum_y sum_i (x_i-y_i)^2
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ]
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i)
- 2 * sum_i [sum_x x_i * sum_y y_i]
前两个加数相同。所以我们有2n
次WCSS。
但是,自mu_i = 0
,sum_x x_i = sum_y y_i = 0
和第三个词消失后。
如果我没有搞砸这个计算,那么集群中的均值,非对称成对平方欧几里德距离与WCSS相同。