我是R的新手并从titanic data学习。
我想知道列中缺少多少个值。这就是我的尝试:
data = read.csv(file.path(DIR, file))
table(is.na(data$name))
table(is.na(data$cabin))
列Name中没有缺失值。 Cabin栏中有1,014个缺失值。
然而上面的行回到了我:
FALSE
1309
什么是正确的方法?谢谢。
答案 0 :(得分:1)
该文件为.xls
个文件。我们可以使用其中一个读取excel文件的包来读取它
library(readxl)
data <- read_excel(file.choose())
dim(data)
#[1] 1309 14
table(is.na(data$cabin))
# FALSE TRUE
# 295 1014
要获取所有列中的缺失值,summarise_all
将非常有用
library(dplyr)
data %>%
summarise_all(funs(sum(is.na(.))))
# A tibble: 1 x 14
# pclass survived name sex age sibsp parch ticket fare cabin embarked boat body home.dest
# <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int>
#1 0 0 0 0 263 0 0 0 1 1014 2 823 1188 564