我正在尝试在评估群集(不同主题)的过程中对列进行方差计算。在这样做的过程中,我遇到了一个很好的技巧,使用基础' var'功能。然而,为了确保它正在做我认为它应该做的事情,我把它与手动滚动的方差计算进行了比较。在做我的手动滚动版本时,我的计算差异几乎达到1%。我知道由于浮点精度存在差异,但是这个数量的1%似乎有点高。
下面是我用来检查两种计算方法的代码(相反,3种方法,因为我还通过矩计算方差,看起来' var'计算使用这个时刻快捷方式)。有样本数据,您可以看到方差计算的差异。
我想知道断言这些计算的1%差异是否合理是否合理?
谢谢,
马特
以下是代码:
> # Sample data
> # This will be 2-d coordinates with pre-defined clusters (treatments)
> dat = rbind(
+ # 4-point cross cluster centered on (2,2)
+ data.frame(grp=1, x=2, y=3),
+ data.frame(grp=1, x=3, y=2),
+ data.frame(grp=1, x=2, y=1),
+ data.frame(grp=1, x=1, y=2),
+ # 2-point dumbbell centered on (-2,-2)
+ data.frame(grp=2, x=-3, y=-2),
+ data.frame(grp=2, x=-1, y=-2),
+ # 3-point equilateral triangle cenetered on (-2,2)
+ data.frame(grp=3, x=-2, y=3),
+ data.frame(grp=3, x=(-2 - sqrt(3)/2), y=-1.5),
+ data.frame(grp=3, x=(-2 + sqrt(3)/2), y=-1.5)
+ )
>
>
> # Compare var calc to hand calc
> # -----------------------------
>
> # Shortcut using existing 'var' function
> var1 = (nrow(dat) - 1) * apply(dat[,-1], 2, var)
> print(var1)
x y
41.05556 37.72222
>
> # Hand-rolled from definition
> centroid = apply(dat[,-1], 2, mean)
> var2 = apply((dat[,-1] - centroid)^2, 2, sum)
> print(var2)
x y
41.46952 37.79630
>
> # Using raw moments
> # Looks to be same as variance calculation
> var3 = apply(dat[,-1], 2, function(col) length(col) * (mean(col^2) - mean(col)^2))
> print(var3)
x y
41.05556 37.72222
>
> # What is the percent difference?
> calcdiff = (var3 - var2) / var2 * 100
> print(calcdiff)
x y
-0.9982268 -0.1959824
答案 0 :(得分:1)
您的第二个定义有错误。当你这样做
var2 = apply((dat[,-1] - centroid)^2, 2, sum)
你不是在修正每一列,而是在每列中交替减去质心元素。
请改为尝试:
var2 = apply((dat[,-1] - matrix(centroid, nrow=nrow(dat), ncol=2, byrow=TRUE))^2, 2, sum)