tapply中有多个ID列表

时间:2015-09-13 20:51:20

标签: r mean tapply

我想计算不同组中变量的平均值。要定义组,我想利用数据框中两列描述单个观察结果的组合:

a<-sample(12)
b<-sample(-100:100, 12)
d<-c(-11:0)
O<-rep(c("Nn","Hy"), each=6)
H<-rep(c("In+", "In-"), each=3, times=2) 
ID<-rep(c("bo","co", "do", "fo"), each=3)
mydata<-data.frame(ID, a, b, d, O, H)
gg.df <- melt(mydata, id.var=c("ID", "O", "H"), variable.name="int")

mean.w<-tapply(subset( x= gg.df, subset = int == "a") , 
list(gg.df$O, gg.df$H), mean, na.rm=TRUE)

我收到此错误消息:

Error in tapply(subset(x = gg.df, subset = int == "a"), list(gg.df$O,  : 
  arguments must have same length 

2 个答案:

答案 0 :(得分:3)

我想也许您正在寻找其中一种解决方案。对于tapply(),第一个参数是向量,而不是整个数据集。来自help(tapply)

  

<强>用法

     

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

     

<强>参数

     

X   原子对象,通常是矢量。

如果我们使用tapply()开始调用,我发现with()更容易理解。在这里,我们可以使用with()调用中的子集,然后tapply()调用更容易阅读。

with(subset(gg.df, int == "a"), tapply(value, list(O, H), mean, na.rm = TRUE))
#         In-      In+
# Hy 5.000000 8.000000
# Nn 5.333333 7.666667

aggregate(value ~ O + H, subset(gg.df, int == "a"), mean, na.rm = TRUE)
#    O   H    value
# 1 Hy In- 5.000000
# 2 Nn In- 5.333333
# 3 Hy In+ 8.000000
# 4 Nn In+ 7.666667

请注意,您也可以使用gg.df[gg.df$int == "a", ]代替使用subset()的子集。另请注意,我们可以使用data.frame()中的tapply()代替list()

来获得更多信息量的结果
with(subset(gg.df, int == "a"), tapply(value, data.frame(O, H), mean))
#     H
# O         In-      In+
#   Hy 5.000000 8.000000
#   Nn 5.333333 7.666667

答案 1 :(得分:1)

另一种选择:

library(dplyr)
library(tidyr)

mydata %>% 
  gather(int, value, -O, -H, -ID) %>%
  filter(int == "a") %>%
  group_by(O, H) %>%
  summarise(value = mean(value, na.rm = TRUE))

给出了:

#       O      H    value
#  (fctr) (fctr)    (dbl)
#1     Hy    In- 7.333333
#2     Hy    In+ 6.666667
#3     Nn    In- 6.666667
#4     Nn    In+ 5.333333