Question

在使用元启发式算法的聚类分析论文中，许多人已经优化了均方 - 量化误差（MSE）。例如在 [1]和[2]。

我对结果感到困惑。他们告诉他们已经使用MSE作为目标函数。但是他们已经报告了欧几里德距离的簇内总和的结果值。

K-Means最小化群内平方和（WCSS）（来自wiki）[3]。在计算MSE时，在差异度量的情况下使用欧几里德距离时，我无法找到WCSS和MSE之间的区别。

在K-Means的情况下，WCSS被最小化，并且如果我们使用与元启发式算法相同的MSE函数，它们也将最小化它。在这种情况下，K-Means和另一个的欧几里德距离之和如何变化？

如果我优化欧几里德距离的簇内总和，我可以重现论文中显示的结果。

我想我在这里做错了什么。任何人都可以帮助我。

主要问题：引用的论文[1]和[2]有哪些目标优化，哪些功能的值显示在表格中？

Answer 1

K-means优化（群内总和）平方和又称方差，即欧氏距离平方和。

如果您研究收敛证明，这很容易看出。

我无法研究你引用的两篇论文。他们是蹩脚的Elsevier和paywalled，我不会支付36美元+32美元来回答你的问题。

更新：我设法获得其中一个的免费副本。他们称之为＆＃34; MSE，均方量化误差＆＃34;，但他们的方程式是通常的群内平方和，没有涉及的平均值;这个陈述附带了一个阴暗的自我引用，一半的引用是自我引用...似乎这个作者更喜欢称之为与其他人不同。看起来有点像＃34;用不同的名字重新发明轮子＆＃34;对我来说。我仔细仔细检查他们的结果。我并不是说它们是假的，我没有详细检查过。但是＆＃34;均方误差＆＃34;没有任何意义;它是平方误差的总和。

更新：如果＆＃34;群内总和＆＃34;是指任意两个物体的成对距离之和，请考虑以下因素：

不失一般性，移动数据使得均值为0.（翻译不会改变欧几里德或平方欧氏距离）。

sum_x sum_y sum_i (x_i-y_i)^2
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ]
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i)
  - 2 * sum_i [sum_x x_i * sum_y y_i]

前两个加数相同。所以我们有2n次WCSS。但是，自mu_i = 0，sum_x x_i = sum_y y_i = 0和第三个词消失后。

如果我没有搞砸这个计算，那么集群中的均值，非对称成对平方欧几里德距离与WCSS相同。

哪个目标是优化的群内距离总和或MSE？

1 个答案: