舍入平方和计算中的舍入差异

时间:2013-06-04 16:23:37

标签: r

我正在尝试在评估群集(不同主题)的过程中对列进行方差计算。在这样做的过程中,我遇到了一个很好的技巧,使用基础' var'功能。然而,为了确保它正在做我认为它应该做的事情,我把它与手动滚动的方差计算进行了比较。在做我的手动滚动版本时,我的计算差异几乎达到1%。我知道由于浮点精度存在差异,但是这个数量的1%似乎有点高。

下面是我用来检查两种计算方法的代码(相反,3种方法,因为我还通过矩计算方差,看起来' var'计算使用这个时刻快捷方式)。有样本数据,您可以看到方差计算的差异。

我想知道断言这些计算的1%差异是否合理是否合理?

谢谢,

马特

以下是代码:

>     # Sample data
>     # This will be 2-d coordinates with pre-defined clusters (treatments)
> dat = rbind(
+             # 4-point cross cluster centered on (2,2)
+         data.frame(grp=1, x=2, y=3),
+         data.frame(grp=1, x=3, y=2),
+         data.frame(grp=1, x=2, y=1),
+         data.frame(grp=1, x=1, y=2),
+             # 2-point dumbbell centered on (-2,-2)
+         data.frame(grp=2, x=-3, y=-2),
+         data.frame(grp=2, x=-1, y=-2),
+             # 3-point equilateral triangle cenetered on (-2,2)
+         data.frame(grp=3, x=-2, y=3),
+         data.frame(grp=3, x=(-2 - sqrt(3)/2), y=-1.5),
+         data.frame(grp=3, x=(-2 + sqrt(3)/2), y=-1.5)
+ )
> 
> 
>     # Compare var calc to hand calc
>     # -----------------------------
> 
>     # Shortcut using existing 'var' function
> var1 = (nrow(dat) - 1) * apply(dat[,-1], 2, var)
> print(var1)
       x        y 
41.05556 37.72222 
> 
>     # Hand-rolled from definition
> centroid = apply(dat[,-1], 2, mean)
> var2 = apply((dat[,-1] - centroid)^2, 2, sum)
> print(var2)
       x        y 
41.46952 37.79630 
> 
>     # Using raw moments
>     # Looks to be same as variance calculation
> var3 = apply(dat[,-1], 2, function(col) length(col) * (mean(col^2) - mean(col)^2))
> print(var3)
       x        y 
41.05556 37.72222 
> 
>     # What is the percent difference?
> calcdiff = (var3 - var2) / var2 * 100
> print(calcdiff)
         x          y 
-0.9982268 -0.1959824 

1 个答案:

答案 0 :(得分:1)

您的第二个定义有错误。当你这样做

var2 = apply((dat[,-1] - centroid)^2, 2, sum)

你不是在修正每一列,而是在每列中交替减去质心元素。

请改为尝试:

var2 = apply((dat[,-1] - matrix(centroid, nrow=nrow(dat), ncol=2, byrow=TRUE))^2, 2, sum)