我每天都有多个分类值的数据,存储为数据框:
YYYYMM Date ID Count
201401 01/01/2014 A 151
201401 01/01/2014 B 68
201401 01/01/2014 C 487
201401 02/01/2014 A 198
201401 02/01/2014 B 97
201401 02/01/2014 C 403
我正在尝试使用ggplot绘制移动平均值与实际值。
我想要做的是在我的数据框中创建第5列,其中包含平均值。
我试过这个解决方案(见Constructing moving average over a categorical variable in R)
df$Mean<-0
library(plyr)
library(zoo)
ddply(
df, "ID",
transform,
df$Mean<-rollmean(Count, 7, na.pad=TRUE)
)
并且它可以工作,但是它会计算数据框中每一列的平均值,并在现有数据框中生成另一个数据框,所以我最终会得到这样的结果:
YYYYMM Date ID Count Mean.YYYYMM Mean.Date Mean.ID Mean.Count
201401 01/01/2014 A 151 201401 01/01/2014 B 58.90
201401 01/01/2014 B 68 201401 01/01/2014 B 62.05
201401 01/01/2014 C 487 201401 01/01/2014 B 61.84
201401 02/01/2014 A 198 201401 01/01/2014 B 58.02
201401 02/01/2014 B 97 201401 01/01/2014 B 57.65
201401 02/01/2014 C 403 201401 01/01/2014 B 59.65
当我尝试绘制这个
时for (var in unique(df$ID))
{
ggplot(df[df$ID==var,], aes(x=Date)) +
geom_line(aes(y=Count),color="blue") +
geom_line(aes(y=Mean$Count),color="grey",linetype="dashed") +
facet_wrap(~ID) +
theme_bw()
}
我收到错误消息。我想知道我在这里缺少什么,或者是否还有另外一种方法可以解决这个问题?
答案 0 :(得分:3)
您没有提供足够的数据来在组内创建每周滚动平均值,但原则上它可以像这样工作:
numeric(1, 0)
使用@newEnvScore
您的library(tidyverse)
library(zoo)
my_data <- my_data %>%
group_by(ID) %>%
mutate(roll_mean = rollmean(Count, 2, na.pad = T))
您的ID变量,然后使用滚动平均值创建一个新列。您可以使用标准dplyr
- 语法:
group_by
ggplot2