Question

在数据框中有一个名为background-color的变量。如您所见，有333 YOB个值。

NA

我发现了一些异常值并希望摆脱它们。任何低于1900且大于2003的东西都应被删除。我尝试通过索引来做到这一点。

> summary(train$YOB)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   1880    1970    1983    1980    1993    2039     333

不幸的是train = train[which(train$YOB >= 1900 & train$YOB <= 2003),]变量为YOB的观察结果也被删除了。

NA

另外，在使用> summary(train$YOB) Min. 1st Qu. Median Mean 3rd Qu. Max. 1900 1970 1983 1980 1993 2003命令时，我遇到了同样的问题。

subset

我也试图在两次尝试中使用这个条件，但没有成功，例如

> train = subset(train, YOB >= 1900 & YOB <= 2003)
> summary(train$YOB)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1900    1970    1983    1980    1993    2003

我想保留> train = train[which(!is.na(train$YOB) & train$YOB >= 1900 & train$YOB <= 2003),] > summary(train$YOB) Min. 1st Qu. Median Mean 3rd Qu. Max. 1900 1970 1983 1980 1993 2003变量中NA的观察结果，只删除那些数字变量。这个想法是第二步，以弥补缺失的价值。

Answer 1

which将提供数字索引并跳过所有这些NA行。为避免这种情况，请使用逻辑索引而不包含which。索引将以这种方式为NA，即使存在非NA的其他值，该行也将保持为NA。

res1 <- train[train$YOB >= 1900 & train$YOB <= 2003,]
res1[is.na(res1$YOB),]
#   YOB col2
#NA  NA   NA

正确的方法是使用is.na

创建另一个条件

res2 <- train[is.na(train$YOB)| (train$YOB >= 1900 & train$YOB <= 2003),]
res2[is.na(res2$YOB),]
#   YOB      col2
#42  NA 0.2258094

使用一个简单的例子

set.seed(25)
d1 <- data.frame(v1 = c(NA, 1, 5), v2 = rnorm(3))
d1$v1 >1
#[1]    NA FALSE  TRUE

此处，NA值保持不变。如果我们使用which

which(d1$v1 >1)
#[1] 3

我们只得到TRUE值的索引。根据OP，NA和满足逻辑条件的行都应该返回。在那种情况下，

d1[is.na(d1$v1)|d1$v1 > 1,]
# v1         v2
#1 NA -0.2118336
#3  5 -1.1533076

数据

set.seed(29)
train <- data.frame(YOB = sample(c(NA, 1850:2015), 100, replace=TRUE), 
           col2 = rnorm(100))

如何在不丢失R中的NA值的情况下有条件地从数据帧中删除观测值？

1 个答案:

数据