在R数据表中按名称模式处理列

时间:2015-03-25 16:57:58

标签: r data.table

我有一个数据表DT;它的一些列名有一个模式。我怎样才能简明扼要地(即在一行代码中)编写类似

的内容
DT[pat1>0, pat1:=1]
DT[pat2>0, pat2:=1]
DT[pat3>0, pat3:=1]

玩具数据:

require(data.table)
set.seed(1)
DT <- data.table(id=rnorm(5), pat1=sample(0:3, 5, T), pat2=sample(0:3, 5, T), pat3=sample(0:3, 5, T))
DT
##            id pat1 pat2 pat3
## 1: -0.6264538    0    1    3
## 2:  0.1836433    0    2    0
## 3: -0.8356286    2    3    2
## 4:  1.5952808    1    1    0
## 5:  0.3295078    3    3    1


DT[pat1>0, pat1:=1]
DT[pat2>0, pat2:=1]
DT[pat3>0, pat3:=1]
DT
##            id pat1 pat2 pat3
## 1: -0.6264538    0    1    1
## 2:  0.1836433    0    1    0
## 3: -0.8356286    1    1    1
## 4:  1.5952808    1    1    0
## 5:  0.3295078    1    1    1    

3 个答案:

答案 0 :(得分:4)

如果它必须在一行上,则此循环执行:

for (j in paste0('pat',1:3)) DT[get(j) > 0, (j) := 1L]

答案 1 :(得分:4)

您也可以尝试set

indx <- grep('pat', names(DT))

for(j in indx){set(DT, i= which(DT[[j]] >0), j=j, value=1) }

 DT
 #           id pat1 pat2 pat3
 #1: -0.6264538    0    1    1
 #2:  0.1836433    0    1    0
 #3: -0.8356286    1    1    1
 #4:  1.5952808    1    1    0
 #5:  0.3295078    1    1    1

另外,正如@Frank评论的那样,&#39; indx&#39;不需要对象,因为它可以在for循环中使用。

答案 2 :(得分:3)

尝试:

DT[,paste0("pat",1:3):=lapply(.SD,function(x) as.integer(x>0)),.SDcols=paste0("pat",1:3)]
            id pat1 pat2 pat3
#1: -0.6264538    0    1    1
#2:  0.1836433    0    1    0
#3: -0.8356286    1    1    1
#4:  1.5952808    1    1    0
#5:  0.3295078    1    1    1