存在NA值时的加权平均值

时间:2016-11-11 04:35:52

标签: r data.table na weighted-average

这是我正在处理的一个非常简单的例子:

setCoords

我想要做的是计算每行的CompA到C的加权平均值。但是,请注意CompC具有1-3行的NA。我想要的是第1-3行具有CompA和CompB的加权平均值,但是一旦CompC变为活动状态,我希望将其自动包含在计算中。

目前,我已经做过类似的事情:

data_stack <- data.table(CompA_value = c(10,20,30,40), CompB_value = c(60,70,80,80), CompC_value = c(NA, NA, NA, 100), CompA_weight = c(0.2, 0.3,0.4,0.4), CompB_weight = c(0.8,0.7,0.6,0.4), CompC_weight = c(NA, NA, NA,0.2))

   CompA_value CompB_value CompC_value CompA_weight CompB_weight CompC_weight
1:          10          60          NA          0.2          0.8           NA
2:          20          70          NA          0.3          0.7           NA
3:          30          80          NA          0.4          0.6           NA
4:          40          80         100          0.4          0.4          0.2

但是我的&#34; Weighted_average&#34;专栏显然不会给我前1-3行的重量。

我想要的是:

> data_stack[, Weighted_average := CompA_value*CompA_weight + CompB_value*CompB_weight + CompC_value * CompC_weight]
> data_stack
   CompA_value CompB_value CompC_value CompA_weight CompB_weight CompC_weight Weighted_average
1:          10          60          NA          0.2          0.8           NA               NA
2:          20          70          NA          0.3          0.7           NA               NA
3:          30          80          NA          0.4          0.6           NA               NA
4:          40          80         100          0.4          0.4          0.2               68

因此,请注意前三行如何只是A和B的加权平均值,但一旦C变为可用,它也会包含在计算中。

所以我想知道如何编写一些代码来获取是否存在NA值,如果是,则跳过它,但如果不包括在计算中。

我有一个相当大的数据表,所以手动操作是不可能的!

问候。

1 个答案:

答案 0 :(得分:1)

你走了:

data_stack$Weighted_average = apply(data_stack,1,function(x){
  y = c(x["CompA_value"]*x["CompA_weight"],
        x["CompB_value"]*x["CompB_weight"],
        x["CompC_value"]*x["CompC_weight"])
  return(sum(y,na.rm = T))
})

结果:

> data_stack
  CompA_value CompB_value CompC_value CompA_weight CompB_weight CompC_weight Weighted_average
1          10          60          NA          0.2          0.8           NA               50
2          20          70          NA          0.3          0.7           NA               55
3          30          80          NA          0.4          0.6           NA               60
4          40          80         100          0.4          0.4          0.2               68

该函数为每列创建一个值为* weight的向量。然后返回忽略NA值的总和。这意味着这将忽略任何列中的NA值。