我试图根据两个分组(门和环境)计算平均值(以及其他计算),我想重定向到输出到文件。我知道下面的代码可以工作。
new_df = myDF[(myDF$Environment=='Water_MarineTreated') & (myDF$Phylum=='Acidobacteria'),]
print(mean(new_df$pH))
然而,因为有这么多的环境和众多的门,我觉得包含循环的函数是最好的方法。我有一个函数,它取一个向量的名称和计算的名称(例如mean,sd,var等等)循环遍历每个环境和每个门,计算每个排列的平均pH值,将其添加到向量,并返回向量。不幸的是,返回值是“numeric(0)”。虽然这是我告诉它的回归,但这不是我想要的。
我认为规则是每个帖子的一个问题,所以如果有人能够解释为什么有一个空载体返回而不是一个充满pH值的载体,我会很感激。如果规则可以稍微弯曲,有人可以回答为什么“eName = numeric()”不起作用,我也会很感激。如果我在内部循环中放置一个虚拟打印语句,当我使用eName = numeric()时,不会打印任何内容,就像我初始化Water_MarineTreated = numeric()一样,打印出虚拟语句。
我的功能和函数调用如下所示。
fileName = 'mini.txt'
myDF = read.csv(fileName, header = TRUE, sep = ' ')
environment = unique(unlist(myDF$Environment, use.names = FALSE))
phyla = unique(unlist(myDF$Phylum, use.names = FALSE))
Statistics = function(eName, funName)
{
#eName = numeric() #This approach does not work?!!
for (i in environment)
{
for (j in phyla)
{
stats_df = myDF[(myDF$Environment==i) & (myDF$Phylum==j),]
if (i == deparse(substitute(eName)))
{
#Water_MarineTreated == c(Water_MarineTreated, funName(as.numeric(stats_df$pH)))
eName == c(eName, funName(as.numeric(stats_df$pH)))
print('dummy_statement')
}
}
}
return(eName)
}
Water_MarineTreated = numeric()
Water_MarineTreated = Statistics(Water_MarineTreated, mean)
print(Water_MarineTreated)
输入样本如下所示:
Phylum pH Environment
Acidobacteria 5.4 Water_MarineTreated
Acidobacteria 6.1 Water_PondTreated
Acidobacteria 6.1 Water_MarineTreated
Acidobacteria 5.6 Water_MarineTreated
Acidobacteria 6.2 Water_MarineTreated
Deinococcus_Thermus 4.9 Water_MarineTreated
Firmicutes 5.1 Water_MarineTreated
Firmicutes 5.5 Water_MarineTreated
答案 0 :(得分:2)
data.table
包提供(除其他外)一个非常好的语法,用于按组快速计算函数。请考虑以下示例:
library(data.table)
# Convert sample data to a data.table:
dt <- as.data.table(mtcars)
# Calculate the mean and median mpg by cyl and gear, where carb < 8:
dt[carb<8, # The "where clause"
list(mpg.mean=mean(mpg), mpg.med=median(mpg)), # What you want to calculate
by=list(cyl,gear)] # The groups go here
# cyl gear mpg.mean mpg.med
#1: 6 4 19.750 20.10
#2: 4 4 26.925 25.85
#3: 6 3 19.750 19.75
#4: 8 3 15.050 15.20
#5: 4 3 21.500 21.50
#6: 4 5 28.200 28.20
#7: 8 5 15.800 15.80
#8: 6 5 19.700 19.70
查看documentation了解更多信息。
答案 1 :(得分:2)
您的解决方案可以使用plyr
包获得:
library(plyr)
ddply(mtcars,.(mpg,cyl),colwise(mean))
对于您的数据,如果您要查找除环境和门之外的所有列的平均值(并假设它们是数字的)
library(plyr)
ddply(myDF,.(Environment,Phylum),colwise(mean))
注意:如果你想要sd,用sd替换mean。
答案 2 :(得分:2)
你在循环的中间有一行:
eName == c(eName, funName(as.numeric(stats_df$pH)))
双等号==
表示比较并返回TRUE
或FALSE
,它不会进行任何分配。因此eName
以空向量开始,并且从未分配任何内容。这只是我更喜欢<-
进行分配的原因之一。
即使你切换到一个赋值,它现在的方式你将覆盖每次迭代的值,返回值将只是最终值,而不是所有值。你需要更像的东西:
eName[i] <- ...
或
eName[i,] <- ...
虽然在任何一种情况下,使用sapply
代替循环通常更简单。