在R中分组,ddply与weighted.mean

时间:2010-07-18 21:29:21

标签: r group-by

我试图在R中进行“分组依据” - 样式加权平均值。有一些基本意思,下面的代码(使用来自Hadley的plyr包)运行良好。

ddply(mydf,.(period),mean)

如果我对weighted.mean使用相同的方法,我得到以下错误“'x'和'w'必须具有相同的长度”,我不明白,因为weighted.mean部分在ddply之外工作。

weighted.mean(mydf$mycol,mydf$myweight) # works just fine
ddply(mydf,.(period),weighted.mean,mydf$mycol,mydf$myweight) # returns the erros described above
ddply(mydf,.(period),weighted.mean(mydf$mycol,mydf$myweight)) # different code same story

我想过编写一个自定义函数而不是使用weighted.mean然后将它传递给ddply,或者甚至用子集从头开始编写新东西。在我的情况下,希望这将是太多的工作,但应该有一个更聪明的解决方案已经存在的东西。

对于任何提前建议,请等等!

2 个答案:

答案 0 :(得分:20)

使用汇总(或总结):

ddply(iris, "Species", summarise, 
  wmn = weighted.mean(Sepal.Length, Petal.Length),
  mn = mean(Sepal.Length))

答案 1 :(得分:17)

使用匿名函数:

> ddply(iris,"Species",function(X) data.frame(wmn=weighted.mean(X$Sepal.Length,
+                                                               X$Petal.Length),
+                                             mn=mean(X$Sepal.Length)))
     Species      wmn    mn
1     setosa 5.016963 5.006
2 versicolor 5.978075 5.936
3  virginica 6.641535 6.588
> 

这计算Sepal.Length的加权平均值(由Petal.Length加权)以及未加权平均值并返回两者。