R,以了解列中的缺失值

时间:2018-02-12 07:17:30

标签: r

我是R的新手并从titanic data学习。

我想知道列中缺少多少个值。这就是我的尝试:

data = read.csv(file.path(DIR, file))

table(is.na(data$name))
table(is.na(data$cabin))

列Name中没有缺失值。 Cabin栏中有1,014个缺失值。

然而上面的行回到了我:

FALSE
1309

什么是正确的方法?谢谢。

1 个答案:

答案 0 :(得分:1)

该文件为.xls个文件。我们可以使用其中一个读取excel文件的包来读取它

library(readxl)
data <- read_excel(file.choose())
dim(data)
#[1] 1309   14

table(is.na(data$cabin))

#  FALSE  TRUE 
#  295  1014 

要获取所有列中的缺失值,summarise_all将非常有用

library(dplyr)
data %>% 
     summarise_all(funs(sum(is.na(.))))
# A tibble: 1 x 14
#    pclass survived  name   sex   age sibsp parch ticket  fare cabin embarked  boat  body home.dest
#    <int>    <int> <int> <int> <int> <int> <int>  <int> <int> <int>    <int> <int> <int>     <int>
#1      0        0     0     0   263     0     0      0     1  1014        2   823  1188       564