均值均值 - 如何聚合不同样本量的均值

时间:2017-11-02 22:29:49

标签: r math mean

我如何考虑取几个不同平均值的平均值?

以下是一些数据:

npm publish

如您所见,我在不同月份有不同的样本量。 1月份的样本量为3,4月份的样本量为2,等等。

我可以取每个人的平均值,每个月获得一个平均值:

library(dplyr)
month <- c("January", "January","January", "February", "March", "April", "April", "May", "June", "July")
year <- c(2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014)
v1 <- c(0, 1, 0, 1, 0, 0, 1, 0, 1, 1)
df <- data.frame(month, year, v1)

但是,我如何获得2014年的正确的平均值,因为我有几个月的平均值,每月平均值的样本量不同?

2 个答案:

答案 0 :(得分:1)

没有代表发表评论。你的问题不清楚,你想要计算什么?您想要平均月度平均值吗?

鉴于在某些月份缺乏数据,我想知道每个月计算平均值是否合适。如果您只想要2014年的直接平均值,则无需分组为几个月,您只需计算样本均值即可。

答案 1 :(得分:1)

两种平均方法都给出了相同的值:

这里只是采用年度平均值:

df %>% group_by(year) %>% 
  summarise(year_avg = mean(v1))

与每个月的平均月平均值进行比较:

df %>% group_by(year, month) %>% 
  summarise(month_avg = mean(v1), samples = n()) %>%
  summarise(year_avg = weighted.mean(month_avg, samples))