根据列表中的匹配重新编码数据框变量

时间:2018-07-17 02:58:05

标签: r list dataframe which recode

我正在尝试根据与单独列表中元素的匹配来重新编码数据帧中的变量。例如:

df <- data.frame(stringsAsFactors = FALSE,
  var1 = c("116", "117", "118", "SL1", "SL2", "234"))

matchList <- list(c("116, 117, and 118", "116", "117", "118"), 
c("SL1/SL2", "SL1", "SL2"))

df
var1
1     116
2     117
3     118
4     SL1
5     SL2
6     234

matchList
[[1]]
[1] "116, 117, and 118" "116"               "117"               "118"              

[[2]]
[1] "SL1/SL2" "SL1"     "SL2"    

如果原始var1元素与matchList元素的项目2-4相匹配,则应使用同一列表元素的项目1对其进行重新编码。我希望重新编码的var1如下所示:

var1
1     116, 117, and 118
2     116, 117, and 118
3     116, 117, and 118
4     SL1/SL2
5     SL1/SL2
6     234

以下几行代码一次可以处理一个列表元素,但是我不清楚如何自动执行此操作:

# get indices of matches for matchList element 1
r <- which(df$var1 %in% matchList[[1]]) 
# replace matches with first list item of list element 1 using indices of matches
df$var1[r] <- matchList[[1]][1] 

我已经尝试了以下for循环,但是我不确定我缺少什么

for (i in length(matchList)){
  r <- which(df$var1 %in% matchList[[i]])
  df$var1[r] <- matchList[[i]][1]
}

2 个答案:

答案 0 :(得分:0)

问题出在length(matchList)中,它是单个值,即2。相反,我们需要遍历序列

for(i in seq_along(matchList)) {
     r <- which(df$var1 %in% matchList[[i]])
     df$var1[r] <- matchList[[i]][1]
  } 
df
#               var1
#1 116, 117, and 118
#2 116, 117, and 118
#3 116, 117, and 118
#4           SL1/SL2
#5           SL1/SL2
#6               234

答案 1 :(得分:0)

您可以采用的另一种方法是使用lapply运算符对<<-执行相同的操作。

lapply(matchList, function(x) {
  df$var1[df$var1 %in% x] <<- x[[1]]
})
df

#              var1
#1 116, 117, and 118
#2 116, 117, and 118
#3 116, 117, and 118
#4           SL1/SL2
#5           SL1/SL2
#6               234

但是,在使用<<-之前,您可能需要阅读How do you use scoping assigment.