我试图在R中进行“分组依据” - 样式加权平均值。有一些基本意思,下面的代码(使用来自Hadley的plyr包)运行良好。
ddply(mydf,.(period),mean)
如果我对weighted.mean使用相同的方法,我得到以下错误“'x'和'w'必须具有相同的长度”,我不明白,因为weighted.mean部分在ddply之外工作。
weighted.mean(mydf$mycol,mydf$myweight) # works just fine
ddply(mydf,.(period),weighted.mean,mydf$mycol,mydf$myweight) # returns the erros described above
ddply(mydf,.(period),weighted.mean(mydf$mycol,mydf$myweight)) # different code same story
我想过编写一个自定义函数而不是使用weighted.mean然后将它传递给ddply,或者甚至用子集从头开始编写新东西。在我的情况下,希望这将是太多的工作,但应该有一个更聪明的解决方案已经存在的东西。
对于任何提前建议,请等等!答案 0 :(得分:20)
使用汇总(或总结):
ddply(iris, "Species", summarise,
wmn = weighted.mean(Sepal.Length, Petal.Length),
mn = mean(Sepal.Length))
答案 1 :(得分:17)
使用匿名函数:
> ddply(iris,"Species",function(X) data.frame(wmn=weighted.mean(X$Sepal.Length,
+ X$Petal.Length),
+ mn=mean(X$Sepal.Length)))
Species wmn mn
1 setosa 5.016963 5.006
2 versicolor 5.978075 5.936
3 virginica 6.641535 6.588
>
这计算Sepal.Length的加权平均值(由Petal.Length加权)以及未加权平均值并返回两者。