检查每个id和每行的数据帧列是否存在id

时间:2017-12-22 21:06:04

标签: r dplyr data.table

我有一个lenght m的向量(在这个例子中是m = 10),ID为:

set.seed(12222017)
library(dplyr)
N <- 100
IDs <- do.call(paste0, replicate(7, sample(LETTERS, 10, TRUE), FALSE))

我有一个包含1 + J列和N行

的数据框
df1 <- data.frame(DRAW=1:N, V1=sample(IDs,N, replace = T), 
                  V2=sample(IDs,N, replace = T), 
                  V3=sample(IDs,N, replace = T)) %>% 
  mutate(V1 = as.character(V1), V2 = as.character(V2), V3=as.character(V3))

我想使用该数据生成如下所示的新数据框:

   DRAW OYKGVZZ OWGNEYU MGPARZW GZXTXFV IXNGUCE QMYFNVZ FLZPQDJ XXSOCZZ QHBSIFX GQBZNGQ
1:    1       1       0       0       0       1       0       0       0       1       0
2:    2       0       0       0       0       1       0       0       1       0       1
3:    3       0       0       0       1       0       0       0       1       0       1
4:    4       0       0       1       0       0       0       0       1       1       0
5:    5       0       0       0       0       1       0       1       1       0       0
6:    6       0       0       0       1       0       1       0       0       0       0

我可以使用以下代码执行此操作:

checkRowXidX <- function(DRAW, idX){
  check <- idX %in% df1[DRAW,-1]
  out <- data.frame(DRAW = DRAW, idX=idX, check = as.numeric(check))

}

tests <- expand.grid(df1$DRAW,IDs)

checks <- purrr::map2(tests$Var1, tests$Var2, checkRowXidX) %>% 
  data.table::rbindlist() %>% tidyr::spread(idX, check)

checks %>% head

有更有效的方法吗?在实践中,我将使用更大的数据,这种方法需要一段时间才能运行。

1 个答案:

答案 0 :(得分:2)

许多解决方案之一是来自dcast()的{​​{1}}:

reshape2