用聚合物混合na.omit和na.pass?

时间:2013-07-19 02:26:06

标签: r aggregate plyr summary

我有一个包含产品原型测试数据的数据集。并非所有测试都在所有批次上运行,并且并非所有测试都使用相同的样本大小执行。为了说明,请考虑这种情况:

> test <- data.frame(name = rep(c("A", "B", "C"), each = 4),
  var1 = rep(c(1:3, NA), 3),
  var2 = 1:12,
  var3 = c(rep(NA, 4), 1:8))

> test
   name var1 var2 var3
1     A    1    1   NA
2     A    2    2   NA
3     A    3    3   NA
4     A   NA    4   NA
5     B    1    5    1
6     B    2    6    2
7     B    3    7    3
8     B   NA    8    4
9     C    1    9    5
10    C    2   10    6
11    C    3   11    7
12    C   NA   12    8

在过去,我只需要处理错误匹配重复的情况,aggregate(cbind(var1, var2) ~ name, test, FUN = mean, na.action = na.omit)(或默认设置)很容易。我会得到var1的三个值和var2的四个值的每个批次的平均值。

不幸的是,在这种情况下,这将使我的数据集完全丢失了批次A

 aggregate(cbind(var1, var2, var3) ~ name, test, FUN = mean, na.action = na.omit)
  name var1 var2 var3
1    B    2    6    2
2    C    2   10    6

但是,如果我使用na.pass,我也得不到我想要的东西:

 aggregate(cbind(var1, var2, var3) ~ name, test, FUN = mean, na.action = na.pass)
  name var1 var2 var3
1    A   NA  2.5   NA
2    B   NA  6.5  2.5
3    C   NA 10.5  6.5

现在我丢失了var1中的好数据,因为它包含NA的实例。

我想要的是:

  • NA作为mean()的输出,如果{em>所有 varNname的唯一组合为NA s
  • 如果[{1}}〜mean()
  • 有一个或多个实际值,则varN的输出

我猜这很简单,但我不知道怎么做。我需要使用name这样的东西吗?如果是这样......我倾向于避免它的原因是我最终写了ddply这么长的等价物,如下所示:

aggregate()

是的......所以结果显然是我想要的。无论如何,我会留下这个问题,以防有{1}}或{2} ddply(test, .(name), summarise, var1 = mean(var1, na.rm = T), var2 = mean(var2, na.rm = T), var3 = mean(var3, na.rm = T)) 更短的语法。

1 个答案:

答案 0 :(得分:17)

na.action=na.passna.rm=TRUE传递给aggregate。前者告诉aggregate不要删除存在NAs的行;后者告诉mean忽略它们。

aggregate(cbind(var1, var2, var3) ~ name, test, mean,
          na.action=na.pass, na.rm=TRUE)