我使用k-means算法和Spark,我不理解求和平方误差和方差之间的关系。
这些值之间是否有关系?。
我使用k = 1。值是
求和平方误差为10.5679450644
标准差是:
stdev:[2.05035446 2.52269532]
我可以从标准偏差计算平方误差吗?
答案 0 :(得分:0)
方差定义为
1/(n-1) * sum of squares
通常情况下,人们会使用1 / n而不是1 /(n-1),但对于大数据来说,这并没有太大的改变。
标准差当然是sqrt(variance)
。
所以是的,三者之间存在非常的简单关系:
stddev = sqrt(variance) = sqrt(SSQ / (n-1))
除了在您的示例中,stddev是在每个轴上独立计算的;也许你的SSQ实际上是平均 SSQ(很可能是SSQ / n;不幸的是)。或者你的数据集只有2分?