在数据框中有一个名为background-color
的变量。如您所见,有333 YOB
个值。
NA
我发现了一些异常值并希望摆脱它们。任何低于1900且大于2003的东西都应被删除。我尝试通过索引来做到这一点。
> summary(train$YOB)
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
1880 1970 1983 1980 1993 2039 333
不幸的是train = train[which(train$YOB >= 1900 & train$YOB <= 2003),]
变量为YOB
的观察结果也被删除了。
NA
另外,在使用> summary(train$YOB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1900 1970 1983 1980 1993 2003
命令时,我遇到了同样的问题。
subset
我也试图在两次尝试中使用这个条件,但没有成功,例如
> train = subset(train, YOB >= 1900 & YOB <= 2003)
> summary(train$YOB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1900 1970 1983 1980 1993 2003
我想保留> train = train[which(!is.na(train$YOB) & train$YOB >= 1900 & train$YOB <= 2003),]
> summary(train$YOB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1900 1970 1983 1980 1993 2003
变量中NA
的观察结果,只删除那些数字变量。这个想法是第二步,以弥补缺失的价值。
答案 0 :(得分:3)
which
将提供数字索引并跳过所有这些NA行。为避免这种情况,请使用逻辑索引而不包含which
。索引将以这种方式为NA,即使存在非NA的其他值,该行也将保持为NA。
res1 <- train[train$YOB >= 1900 & train$YOB <= 2003,]
res1[is.na(res1$YOB),]
# YOB col2
#NA NA NA
正确的方法是使用is.na
res2 <- train[is.na(train$YOB)| (train$YOB >= 1900 & train$YOB <= 2003),]
res2[is.na(res2$YOB),]
# YOB col2
#42 NA 0.2258094
使用一个简单的例子
set.seed(25)
d1 <- data.frame(v1 = c(NA, 1, 5), v2 = rnorm(3))
d1$v1 >1
#[1] NA FALSE TRUE
此处,NA
值保持不变。如果我们使用which
which(d1$v1 >1)
#[1] 3
我们只得到TRUE值的索引。根据OP,NA和满足逻辑条件的行都应该返回。在那种情况下,
d1[is.na(d1$v1)|d1$v1 > 1,]
# v1 v2
#1 NA -0.2118336
#3 5 -1.1533076
set.seed(29)
train <- data.frame(YOB = sample(c(NA, 1850:2015), 100, replace=TRUE),
col2 = rnorm(100))