K-means Spark方差

时间:2016-04-13 05:40:22

标签: apache-spark k-means standard-deviation

我使用k-means算法和Spark,我不理解求和平方误差和方差之间的关系。

这些值之间是否有关系?。

我使用k = 1。值是

求和平方误差为10.5679450644

标准差是:

stdev:[2.05035446 2.52269532]

我可以从标准偏差计算平方误差吗?

1 个答案:

答案 0 :(得分:0)

方差定义为

1/(n-1) * sum of squares

通常情况下,人们会使用1 / n而不是1 /(n-1),但对于大数据来说,这并没有太大的改变。

标准差当然是sqrt(variance)

所以是的,三者之间存在非常的简单关系:

stddev = sqrt(variance) = sqrt(SSQ / (n-1))

除了在您的示例中,stddev是在每个轴上独立计算的;也许你的SSQ实际上是平均 SSQ(很可能是SSQ / n;不幸的是)。或者你的数据集只有2分?