每组7天移动平均线 - R.

时间:2017-05-26 14:37:47

标签: r ggplot2 moving-average

我每天都有多个分类值的数据,存储为数据框:

YYYYMM    Date         ID    Count
201401    01/01/2014   A     151
201401    01/01/2014   B     68
201401    01/01/2014   C     487
201401    02/01/2014   A     198
201401    02/01/2014   B     97
201401    02/01/2014   C     403

我正在尝试使用ggplot绘制移动平均值与实际值。

我想要做的是在我的数据框中创建第5列,其中包含平均值。

我试过这个解决方案(见Constructing moving average over a categorical variable in R

df$Mean<-0
library(plyr)
library(zoo)
ddply(
      df, "ID",
       transform,
        df$Mean<-rollmean(Count, 7, na.pad=TRUE)
     )

并且它可以工作,但是它会计算数据框中每一列的平均值,并在现有数据框中生成另一个数据框,所以我最终会得到这样的结果:

YYYYMM  Date        ID  Count  Mean.YYYYMM  Mean.Date   Mean.ID  Mean.Count
201401  01/01/2014  A   151    201401       01/01/2014  B        58.90
201401  01/01/2014  B   68     201401       01/01/2014  B        62.05
201401  01/01/2014  C   487    201401       01/01/2014  B        61.84
201401  02/01/2014  A   198    201401       01/01/2014  B        58.02
201401  02/01/2014  B   97     201401       01/01/2014  B        57.65
201401  02/01/2014  C   403    201401       01/01/2014  B        59.65

当我尝试绘制这个

for (var in unique(df$ID))
{
ggplot(df[df$ID==var,], aes(x=Date)) +
        geom_line(aes(y=Count),color="blue") +
        geom_line(aes(y=Mean$Count),color="grey",linetype="dashed") +
        facet_wrap(~ID) +
        theme_bw()
}

我收到错误消息。我想知道我在这里缺少什么,或者是否还有另外一种方法可以解决这个问题?

1 个答案:

答案 0 :(得分:3)

您没有提供足够的数据来在组内创建每周滚动平均值,但原则上它可以像这样工作:

numeric(1, 0)

使用@newEnvScore您的library(tidyverse) library(zoo) my_data <- my_data %>% group_by(ID) %>% mutate(roll_mean = rollmean(Count, 2, na.pad = T)) 您的ID变量,然后使用滚动平均值创建一个新列。您可以使用标准dplyr - 语法:

绘制它
group_by

数据

ggplot2