分组数据并生成新列

时间:2016-09-03 13:18:27

标签: r machine-learning

我的数据如下:

1 0 1234
1 0 1235
1 0 5434
2 1 31212
2 1 3212
2 0 1211
3 0 2212
3 0 2212
3 1 1212

我想用R来完成的是生成一个新列,如果第二列中三个值中的至少一个(都属于一起)的值为1,则该列的值为1.所以,我的新专栏将是:

1 0 1234 0
1 0 1235 0 
1 0 5434 0
2 1 31212 1
2 1 3212 1
2 0 1211 1
3 0 2212 1
3 0 2212 1
3 1 1212 1

由于每3行属于一起,我无法弄清楚如何实现这一目标。有人可以帮我这个吗?

2 个答案:

答案 0 :(得分:2)

您可以使用dplyrgroup_by第一列(在我的情况下为V1),然后使用any检查是否有任何值等于1.

library(dplyr)
df %>% 
   group_by(V1) %>% 
   mutate(new = ifelse(any(V2) == 1, 1, 0))

#Source: local data frame [9 x 4]
#Groups: V1 [3]

#     V1    V2    V3   new
#  <int> <int> <int> <dbl>
#1     1     0  1234     0
#2     1     0  1235     0
#3     1     0  5434     0
#4     2     1 31212     1
#5     2     1  3212     1
#6     2     0  1211     1
#7     3     0  2212     1
#8     3     0  2212     1
#9     3     1  1212     1

答案 1 :(得分:1)

我们可以使用ave

中的base R
df1$new <- with(df1, ave(V2, V1, FUN = any))
df1$new
#[1] 0 0 0 1 1 1 1 1 1

或使用table

as.integer(rowSums(table(df1[1:2])!=0)==2)[df1$V1]
#[1] 0 0 0 1 1 1 1 1 1

或使用data.table

library(data.table)
setDT(df1)[, new := as.integer(any(V2)), by = V1]
df1
#   V1 V2    V3 new
#1:  1  0  1234   0
#2:  1  0  1235   0
#3:  1  0  5434   0
#4:  2  1 31212   1
#5:  2  1  3212   1
#6:  2  0  1211   1
#7:  3  0  2212   1
#8:  3  0  2212   1
#9:  3  1  1212   1

数据

df1 <- structure(list(V1 = c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L), V2 = c(0L, 
0L, 0L, 1L, 1L, 0L, 0L, 0L, 1L), V3 = c(1234L, 1235L, 5434L, 
31212L, 3212L, 1211L, 2212L, 2212L, 1212L)), .Names = c("V1", 
"V2", "V3"), class = "data.frame", row.names = c(NA, -9L))