以下是我的示例数据框。
Year - Revenue
2001 1.23
2002 23.4
2003 12.4
2004 18.0
...
我希望计算正在运行的统计数据 - 例如同比增长。这将是Revenue [2002] - Revenue [2001]。
我可以使用for循环来做到这一点。但是,是否有基本功能或plyr中的任何内容可以更优雅地完成此任务?
答案 0 :(得分:2)
根据建议,diff
会做你想要的。如果您的数据集很大或有组,您可以尝试使用dplyr。
require(dplyr)
dat <- read.table(header = TRUE, text = "Year Revenue
2001 1.23
2002 23.4
2003 12.4
2004 18.0")
mutate(dat, yoy = Revenue - lag(Revenue))
Year Revenue yoy
1 2001 1.23 NA
2 2002 23.40 22.17
3 2003 12.40 -11.00
4 2004 18.00 5.60
编辑:回复Eddi的评论。数据的复制方式似乎也存在一些差异。请参阅下面的dplyr changes
的输出。
> dplyr_dat <- mutate(dat, yoy = Revenue - lag(Revenue))
> dplyr::changes(dat, dplyr_dat)
Changed variables:
old new
yoy 0x10d951400
Changed attributes:
old new
names 0x10c3161b8 0x10deeb128
class 0x101ca6568 0x103668108
row.names 0x10c233f88 0x100c98a68
> diff_dat <- within(dat, yoy <- c(NA, diff(Revenue)))
> dplyr::changes(dat, diff_dat)
Changed variables:
old new
Year 0x10c316180 0x11086b9f0
Revenue 0x1036b2120 0x1070c0f28
yoy 0x110118a40
Changed attributes:
old new
names 0x10c3161b8 0x10c310ff8
class 0x101ca6568 0x10f4ce7a8
row.names 0x10c1d6a38 0x10f7dca78