所以,我有一个包含几个连续变量和几个虚拟变量的数据框。该数据框来自的调查使用6,7,8和9来表示不同类型的不答复。因此,我想用NA替换6,7,8和9,只要它们出现在虚拟变量列中,但是将它们留在连续变量列中。
有没有简洁的方法来做这件事? 这是我的数据:
> dput(head(sfsuse[c(4:16)]))
structure(list(famsize = c(3L, 1L, 2L, 5L, 3L, 5L), famtype = c(2L,
1L, 2L, 3L, 2L, 3L), cc = c(1L, 1L, 1L, 1L, 1L, 1L), nocc = c(1L,
1L, 1L, 3L, 1L, 1L), pdloan = c(2L, 2L, 2L, 2L, 2L, 2L), help = c(2L,
2L, 2L, 2L, 2L, 2L), budget = c(1L, 1L, 1L, 1L, 2L, 2L), income = c(340000L,
20500L, 0L, 165000L, 95000L, -320000L), govtrans = c(7500L, 15500L,
22000L, 350L, 0L, 9250L), childexp = c(0L, 0L, 0L, 0L, 0L, 0L
), homeown = c(1L, 1L, 1L, 1L, 1L, 2L), bank = c(2000L, 80000L,
25000L, 20000L, 57500L, 120000L), vehval = c(33000L, 7500L, 5250L,
48000L, 8500L, 50000L)), .Names = c("famsize", "famtype", "cc",
"nocc", "pdloan", "help", "budget", "income", "govtrans", "childexp",
"homeown", "bank", "vehval"), row.names = c(NA, 6L), class = "data.frame")
我正试图在第3:7列和第11列中以6,7,8和9的形式获得NA。我知道如何通过列名一次一列地执行此操作:
df$name[df$name %in% 6:9]<-NA
但我必须按名称为每一列执行此操作,是否有通过列索引执行此操作的简明方法?
由于
答案 0 :(得分:1)
此功能应该有效
f <- function(data,k) {
data[data[,k] %in% 6:9,k] <- NA
data
}
现在在控制台:
> for (k in c(3:7,11)) { data <- f(data,k) }