我正在研究来自kaggle的泰坦尼克号数据集,并注意到在数据集的末尾加载了缺失/空白观察,如屏幕截图所示
使用read.csv将数据集加载到R中
使用read_csv将数据集加载到R中
我使用两种方法来查看差异,但两者都以相同的方式加载,方法是将数据集中的最后一行/观察值加载到R中作为NA。一个明显的区别是read_csv已将最后一次观察的所有变量值加载为NA,其中read.csv仅对其中一些进行了。
titanic_original_read_csv <- read_csv("titanic_original.csv", col_names = TRUE)
titanic_original_readcsv <- read.csv("titanic_original.csv", header = TRUE)
我检查了csv文件,它有1310行,包括列标题。因此,当它加载到R时,它应该只有1309个观测值。
为什么NA加载为我加载的数据集中的最后一个观察值?有什么我想念的吗?
答案 0 :(得分:0)
r&lt; - readLines(“titanic_original.csv”); @RemkoDuursma提供的r [length(r)]响应有助于识别csv文件末尾有一条不完整的行。
原始文件采用xlsx格式,但我已将其保存为csv并尝试使用read_csv函数加载。但在这次转换期间,一些不完整的行如何加起来。
大多数人说这是转换问题,建议使用read_excel函数加载xlsx文件,避免随时将xlsx转换为csv。