在R中运行统计数据

时间:2014-02-05 00:59:26

标签: r dplyr plyr

以下是我的示例数据框。

    Year - Revenue
    2001  1.23
    2002 23.4
    2003 12.4
    2004 18.0
    ...

我希望计算正在运行的统计数据 - 例如同比增长。这将是Revenue [2002] - Revenue [2001]。

我可以使用for循环来做到这一点。但是,是否有基本功能或plyr中的任何内容可以更优雅地完成此任务?

1 个答案:

答案 0 :(得分:2)

根据建议,diff会做你想要的。如果您的数据集很大或有组,您可以尝试使用dplyr。

require(dplyr)

dat <- read.table(header = TRUE, text = "Year Revenue
2001  1.23
2002 23.4
2003 12.4
2004 18.0")

mutate(dat, yoy = Revenue - lag(Revenue))

  Year Revenue    yoy
1 2001    1.23     NA
2 2002   23.40  22.17
3 2003   12.40 -11.00
4 2004   18.00   5.60

编辑:回复Eddi的评论。数据的复制方式似乎也存在一些差异。请参阅下面的dplyr changes的输出。

> dplyr_dat <- mutate(dat, yoy = Revenue - lag(Revenue))
> dplyr::changes(dat, dplyr_dat)
Changed variables:
          old new        
yoy           0x10d951400

Changed attributes:
          old         new        
names     0x10c3161b8 0x10deeb128
class     0x101ca6568 0x103668108
row.names 0x10c233f88 0x100c98a68
> diff_dat <- within(dat, yoy <- c(NA, diff(Revenue)))
> dplyr::changes(dat, diff_dat)
Changed variables:
          old         new        
Year      0x10c316180 0x11086b9f0
Revenue   0x1036b2120 0x1070c0f28
yoy                   0x110118a40

Changed attributes:
          old         new        
names     0x10c3161b8 0x10c310ff8
class     0x101ca6568 0x10f4ce7a8
row.names 0x10c1d6a38 0x10f7dca78