如果缺少重量,则按加权平均值或简单平均值汇总列

时间:2015-07-17 10:54:18

标签: r aggregate

我正在尝试聚合数据框的某些列。在我的数据框架中,每列对应一个行业,每行对应一个特定国家/地区。 Idealy我想按加权平均值汇总某些列。然而,对于一小部分,重量缺失。在这种情况下,我希望R将通过简单的平均值为这个国家的行业汇总。来自数据框的snipet(这些是其他列的示例性权重)

|   Mining   | Food     |  weight85| weight90.93|
|:----------:|--  -----:|---------:|------------|
|   0.9608709| 0.8839236| 0.2738525|   0.1943577|
|   0.6445055| 0.8483874| 0.2958678|   0.1043844|
|   0.6977353| 0.9449249|        NA|          NA|
|   0.7970192| 0.5941056| 0.2324452|   0.1904089|
|   0.7261323| 0.6333187|        NA|          NA|
|   0.9959837| 1.0101725| 0.3872314|   0.1628354|

我在计算缺失值问题时计算加权平均值如下:

  GGPC$mining.weighted <- GGPC$weight85*GGPC$Mining
  GGPC$food.weighted  <- (1-GGPC$weight85)*GGPC$food
  GGPC$food.mining<- rowSums(GGPC[,54:55], na.rm=T)

1 个答案:

答案 0 :(得分:0)

以mts提供的答案为基础。我想出了一个解决方案的解决方案,它可以计算一行简单平均值或加权平均值。

 if(sum(is.na(DF[1,37])>0)) {1/2*DF[1,5]+1/2*DF[1,6]}
 else  { DF[1,37]*GGPC[1,5]+(1-DF[1,37])*DF[1,6]} 

进一步循环遍历数据帧的行

 DF$data.column.agg <- 0
 for (i in 1:length(DF)) {
  DF[i,*data.column.agg*] <- if(sum(is.na(DF[i,*weight column*])>0))  {*simple average* }     
 else {DF[i,*weight column*]*GGPC[i,*data column1*]+(1-DF[i,*weight column*])*GGPC[i,*data column2*]} 
 }