我想计算不同组中变量的平均值。要定义组,我想利用数据框中两列描述单个观察结果的组合:
a<-sample(12)
b<-sample(-100:100, 12)
d<-c(-11:0)
O<-rep(c("Nn","Hy"), each=6)
H<-rep(c("In+", "In-"), each=3, times=2)
ID<-rep(c("bo","co", "do", "fo"), each=3)
mydata<-data.frame(ID, a, b, d, O, H)
gg.df <- melt(mydata, id.var=c("ID", "O", "H"), variable.name="int")
mean.w<-tapply(subset( x= gg.df, subset = int == "a") ,
list(gg.df$O, gg.df$H), mean, na.rm=TRUE)
我收到此错误消息:
Error in tapply(subset(x = gg.df, subset = int == "a"), list(gg.df$O, :
arguments must have same length
答案 0 :(得分:3)
我想也许您正在寻找其中一种解决方案。对于tapply()
,第一个参数是向量,而不是整个数据集。来自help(tapply)
<强>用法强>
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
<强>参数强>
X
原子对象,通常是矢量。
如果我们使用tapply()
开始调用,我发现with()
更容易理解。在这里,我们可以使用with()
调用中的子集,然后tapply()
调用更容易阅读。
with(subset(gg.df, int == "a"), tapply(value, list(O, H), mean, na.rm = TRUE))
# In- In+
# Hy 5.000000 8.000000
# Nn 5.333333 7.666667
aggregate(value ~ O + H, subset(gg.df, int == "a"), mean, na.rm = TRUE)
# O H value
# 1 Hy In- 5.000000
# 2 Nn In- 5.333333
# 3 Hy In+ 8.000000
# 4 Nn In+ 7.666667
请注意,您也可以使用gg.df[gg.df$int == "a", ]
代替使用subset()
的子集。另请注意,我们可以使用data.frame()
中的tapply()
代替list()
with(subset(gg.df, int == "a"), tapply(value, data.frame(O, H), mean))
# H
# O In- In+
# Hy 5.000000 8.000000
# Nn 5.333333 7.666667
答案 1 :(得分:1)
另一种选择:
library(dplyr)
library(tidyr)
mydata %>%
gather(int, value, -O, -H, -ID) %>%
filter(int == "a") %>%
group_by(O, H) %>%
summarise(value = mean(value, na.rm = TRUE))
给出了:
# O H value
# (fctr) (fctr) (dbl)
#1 Hy In- 7.333333
#2 Hy In+ 6.666667
#3 Nn In- 6.666667
#4 Nn In+ 5.333333