Question

我有一个数据集，在某些列中包含两个我必须更改为NA的值。

＆＃39;＃DIV / 0＆＃39;和＆＃39;＆＃39; （无）

我使用＆＃39;来解决这个问题。循环，但我想知道是否有另一种方式，如使用＆＃39; apply＆＃39;什么是更快的方法。

我的代码：

train <- read.csv('https://d396qusza40orc.cloudfront.net/predmachlearn/pml-training.csv',stringsAsFactors = F)
test <- read.csv('https://d396qusza40orc.cloudfront.net/predmachlearn/pml-testing.csv', stringsAsFactors = F)

train2 <- train
for(x in 1:length(train2)){
        train2[train2[,x] %in% c('','#DIV/0'),x] <- NA
}

test2 <- test
for(x in 1:length(test2)){
        test2[test2[,x] %in% c('','#DIV/0'),x] <- NA
}

Answer 1

我们可以在na.strings

中使用read.csv参数

train <- read.csv('https://d396qusza40orc.cloudfront.net/predmachlearn/pml-training.csv', 
              na.strings=c('#DIV/0', '', 'NA') ,stringsAsFactors = F)
test <- read.csv('https://d396qusza40orc.cloudfront.net/predmachlearn/pml-testing.csv',
                na.strings= c('#DIV/0', '', 'NA'),stringsAsFactors = F)

只需检查

sum(train=='#DIV/0', na.rm=TRUE)
#[1] 0
sum(test=='#DIV/0', na.rm=TRUE)
#[1] 0
sum(test=='', na.rm=TRUE)
#[1] 0
sum(train=='', na.rm=TRUE)
#[1] 0

NA值

sum(is.na(train))
#[1] 1921600
sum(is.na(test))
#[1] 2000

R - 从数据框中的不同列中删除值

1 个答案: