如何在不丢失R中的NA值的情况下有条件地从数据帧中删除观测值?

时间:2016-06-04 11:30:47

标签: r subset na missing-data

在数据框中有一个名为background-color的变量。如您所见,有333 YOB个值。

NA

我发现了一些异常值并希望摆脱它们。任何低于1900且大于2003的东西都应被删除。我尝试通过索引来做到这一点。

> summary(train$YOB)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   1880    1970    1983    1980    1993    2039     333 

不幸的是train = train[which(train$YOB >= 1900 & train$YOB <= 2003),] 变量为YOB的观察结果也被删除了。

NA

另外,在使用> summary(train$YOB) Min. 1st Qu. Median Mean 3rd Qu. Max. 1900 1970 1983 1980 1993 2003 命令时,我遇到了同样的问题。

subset

我也试图在两次尝试中使用这个条件,但没有成功,例如

> train = subset(train, YOB >= 1900 & YOB <= 2003)
> summary(train$YOB)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1900    1970    1983    1980    1993    2003 

我想保留> train = train[which(!is.na(train$YOB) & train$YOB >= 1900 & train$YOB <= 2003),] > summary(train$YOB) Min. 1st Qu. Median Mean 3rd Qu. Max. 1900 1970 1983 1980 1993 2003 变量中NA的观察结果,只删除那些数字变量。这个想法是第二步,以弥补缺失的价值。

1 个答案:

答案 0 :(得分:3)

which将提供数字索引并跳过所有这些NA行。为避免这种情况,请使用逻辑索引而不包含which。索引将以这种方式为NA,即使存在非NA的其他值,该行也将保持为NA。

res1 <- train[train$YOB >= 1900 & train$YOB <= 2003,]
res1[is.na(res1$YOB),]
#   YOB col2
#NA  NA   NA

正确的方法是使用is.na

创建另一个条件
res2 <- train[is.na(train$YOB)| (train$YOB >= 1900 & train$YOB <= 2003),]
res2[is.na(res2$YOB),]
#   YOB      col2
#42  NA 0.2258094

使用一个简单的例子

set.seed(25)
d1 <- data.frame(v1 = c(NA, 1, 5), v2 = rnorm(3))
d1$v1 >1
#[1]    NA FALSE  TRUE

此处,NA值保持不变。如果我们使用which

which(d1$v1 >1)
#[1] 3

我们只得到TRUE值的索引。根据OP,NA和满足逻辑条件的行都应该返回。在那种情况下,

d1[is.na(d1$v1)|d1$v1 > 1,]
# v1         v2
#1 NA -0.2118336
#3  5 -1.1533076

数据

set.seed(29)
train <- data.frame(YOB = sample(c(NA, 1850:2015), 100, replace=TRUE), 
           col2 = rnorm(100))