ddply()似乎不是我的数据框中的子集

时间:2013-08-13 15:20:36

标签: r plyr

我尝试在我的数据集的子集中获取摘要统计信息,然后自然转向plyr包,因为我正在使用数据框ddply()。我不明白为什么这不起作用....

t <- as.data.frame(cbind(1, seq(1:20)))
t2 <- as.data.frame(cbind(2, seq(21:40)))
t <- rbind(t, t2)
rm(t2)
is.data.frame(t)
[1] TRUE
ddply(t, .(V1), function(x) c(missing = sum(is.na(t$V2)),
                              n       = sum(!is.na(t$V2)),
                              mean    = mean(t$V2, na.rm = TRUE),
                              sd      = sd(t$V2, na.rm = TRUE)))
  V1 missing  n mean      sd
1  1       0 40 10.5 5.83974
2  2       0 40 10.5 5.83974

我已经阅读了一些像this quick overview这样的东西,Stackoverflow上的一些线程已经搜索并发现了类似的问题,并且认为我做对了,但显然没有。我会非常感激地了解我做错了什么或误解了什么。

提前致谢,

slackline

1 个答案:

答案 0 :(得分:5)

我看到了几个问题。首先,不要将seq与冒号运算符结合使用。单独使用冒号可以获得所需的序列:

1:20
# [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
21:40
# [1] 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

如果您同时使用两者,seq将为您提供序列 您传递的序列:

seq(21:40)
# [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20

其次,t是您的整个数据集。您希望对x定义的子集V1进行操作:

ddply(t, .(V1), function(x) c(missing = sum(is.na(x$V2)),
                              n       = sum(!is.na(x$V2)),
                              mean    = mean(x$V2, na.rm = TRUE),
                              sd      = sd(x$V2, na.rm = TRUE)))