我如何考虑取几个不同平均值的平均值?
以下是一些数据:
npm publish
如您所见,我在不同月份有不同的样本量。 1月份的样本量为3,4月份的样本量为2,等等。
我可以取每个人的平均值,每个月获得一个平均值:
library(dplyr)
month <- c("January", "January","January", "February", "March", "April", "April", "May", "June", "July")
year <- c(2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014)
v1 <- c(0, 1, 0, 1, 0, 0, 1, 0, 1, 1)
df <- data.frame(month, year, v1)
但是,我如何获得2014年的正确的平均值,因为我有几个月的平均值,每月平均值的样本量不同?
答案 0 :(得分:1)
没有代表发表评论。你的问题不清楚,你想要计算什么?您想要平均月度平均值吗?
鉴于在某些月份缺乏数据,我想知道每个月计算平均值是否合适。如果您只想要2014年的直接平均值,则无需分组为几个月,您只需计算样本均值即可。
答案 1 :(得分:1)
两种平均方法都给出了相同的值:
这里只是采用年度平均值:
df %>% group_by(year) %>%
summarise(year_avg = mean(v1))
与每个月的平均月平均值进行比较:
df %>% group_by(year, month) %>%
summarise(month_avg = mean(v1), samples = n()) %>%
summarise(year_avg = weighted.mean(month_avg, samples))