按R中的组计算前一个项目的数量

时间:2015-08-20 12:49:12

标签: r counting

我想创建一个新变量,用于计算逐个组中先前项目的数量。这就是我的意思,以esoph数据集为例。

首先,我按小组esoph$agegp, esoph$alcgp和其他值列-esoph$ncontrols对数据集进行排序。

这给了我以下数据集

x<-esoph[order(esoph$agegp, esoph$alcgp, -esoph$ncontrols ), ]
x

   agegp     alcgp    tobgp ncases ncontrols
1  25-34 0-39g/day 0-9g/day      0        40
2  25-34 0-39g/day    10-19      0        10
3  25-34 0-39g/day    20-29      0         6
4  25-34 0-39g/day      30+      0         5
5  25-34     40-79 0-9g/day      0        27
6  25-34     40-79    10-19      0         7
8  25-34     40-79      30+      0         7
7  25-34     40-79    20-29      0         4
9  25-34    80-119 0-9g/day      0         2
11 25-34    80-119      30+      0         2
...

现在,我想创建一个带有某种索引的新变量,每行增加一个。每当下一个按组开始时,索引就会返回到1。

结果表将是以下(带有附加索引列):

   agegp     alcgp    tobgp ncases ncontrols index
1  25-34 0-39g/day 0-9g/day      0        40     1
2  25-34 0-39g/day    10-19      0        10     2
3  25-34 0-39g/day    20-29      0         6     3
4  25-34 0-39g/day      30+      0         5     4
5  25-34     40-79 0-9g/day      0        27     1
6  25-34     40-79    10-19      0         7     2
8  25-34     40-79      30+      0         7     3
7  25-34     40-79    20-29      0         4     4
9  25-34    80-119 0-9g/day      0         2     1
11 25-34    80-119      30+      0         2     2
...

如何计算此列?

谢谢!

2 个答案:

答案 0 :(得分:2)

这是一个data.table解决方案:

R> (data.table(Data)[,index := 1:.N, by = "agegp,alcgp"])
    agegp     alcgp    tobgp ncases ncontrols index
 1: 25-34 0-39g/day 0-9g/day      0        40     1
 2: 25-34 0-39g/day    10-19      0        10     2
 3: 25-34 0-39g/day    20-29      0         6     3
 4: 25-34 0-39g/day      30+      0         5     4
 5: 25-34     40-79 0-9g/day      0        27     1
 6: 25-34     40-79    10-19      0         7     2
 7: 25-34     40-79      30+      0         7     3
 8: 25-34     40-79    20-29      0         4     4
 9: 25-34    80-119 0-9g/day      0         2     1
10: 25-34    80-119      30+      0         2     2
library(data.table)
##
Data <- read.table(
  text = "   agegp     alcgp    tobgp ncases ncontrols
1  25-34 0-39g/day 0-9g/day      0        40
2  25-34 0-39g/day    10-19      0        10
3  25-34 0-39g/day    20-29      0         6
4  25-34 0-39g/day      30+      0         5
5  25-34     40-79 0-9g/day      0        27
6  25-34     40-79    10-19      0         7
8  25-34     40-79      30+      0         7
7  25-34     40-79    20-29      0         4
9  25-34    80-119 0-9g/day      0         2
11 25-34    80-119      30+      0         2",
  header = TRUE,
  stringsAsFactors = FALSE
)

答案 1 :(得分:1)

可以使用dplyr等具有row_number()的专用软件包来解决此问题。我们需要按变量('alcgp')进行分组,并使用mutate创建一个新列。

library(dplyr)
df1 %>%
   group_by( alcgp) %>%
   mutate(indx= row_number())

或使用ave中的base R。我们按'alcgp'分组,在FUN我们可以指定seq_along。我使用seq_along(alcgp),因为如果变量是factor class。

,它可能无效
 df1$indx <- with(df1, ave(seq_along(alcgp), alcgp, FUN=seq_along))

splitstackshape中的另一个方便功能,即getanID

 library(splitstackshape)
 getanID(df1, 'alcgp')