根据R中的grep列标签结果重新编码多个列

时间:2017-02-23 18:43:30

标签: r str-replace grepl recode

我有多个列,我想在R中重新编码(Yes - 1,No - 0,Null - NA)。这些列都包含单词' Flag'作为列标签的一部分,我有大约60个这些列要重新编码。我也有以其他单词结尾的列名,我希望应用相同的逻辑并批量重新编码。

这是我数据框的一个例子。我将它作为.csv文件导入RStudio并设置stringsAsFactors = F

> test <- data.frame(ID = c("86224AA8", "911D8EF", "959661A0", "A4935669", "9A77218A", "19884814",  "017E5338", "6DBCFBB"), CreatedDate = c("18/11/2015", "18/12/2015", "15/11/2015", "13/11/2015", "08/09/2015", "07/11/2013", "18/11/2015", "18/11/2015"), V2Flag = c("No", "No", "No", "No", "Yes", "Yes", "NULL", "Yes"), V3Flag = c("Yes", "NULL", "Yes", "No", "Yes", "Yes", "NULL", "Yes"), V4Flag = c("No", "NULL", "Yes", "No", "Yes", "No", "NULL", "No"))
> test
         ID CreatedDate V2Flag V3Flag V4Flag
1 86224AA8  18/11/2015     No    Yes     No
2  911D8EF  18/12/2015     No   NULL   NULL
3 959661A0  15/11/2015     No    Yes    Yes
4 A4935669  13/11/2015     No     No     No
5 9A77218A  08/09/2015    Yes    Yes    Yes
6 19884814  07/11/2013    Yes    Yes     No
7 017E5338  18/11/2015   NULL   NULL   NULL
8  6DBCFBB  18/11/2015    Yes    Yes     No

我尝试重新编码列名结尾的“是/否”回复&#39;标记&#39;在R.

> test[, grepl("Flag", names(test)) == 'No'] <- 0 
> test[, grepl("Flag", names(test)) == 'Yes'] <- 1 
> test[, grepl("Flag", names(test)) == 'NULL'] <- NA

这些行在R中运行正常并且没有返回任何错误。但是,如全局环境所示,这些列仍然不会显示是/否输出为1/0。

如果我首先使用&#39; grepl&#39;对我的数据集进行子集化,请存储选定的列结束&#39;标记&#39;在一个单独的数据框中。重新编码二进制响应时没有任何问题。

您能否建议我的代码出错,以及如何根据名称选择列并重新编码(不分组我的数据框)?

谢谢!

1 个答案:

答案 0 :(得分:0)

这是重新编码No的方法。为他人重复。

#Convert columns 3, 4, and 5 to character
#This may or may not be necessary for your actual data
test[,3:5] = lapply(test[,3:5], as.character)

#Obtain column numbers where 'Flag' is present
ind1 = which(grepl("Flag", names(test)))

#Obtain indices of where the values are 'No'
ind2 = which(test == "No", arr.ind = TRUE)

#Keep only those values in ind2 where column numbers match with ind1
ind2 = ind2[ind2[,2] %in% ind1,]

#Recode values to zero
test[ind2] = 0