在R中加载CSV文件会加载NA观察值作为最后一个数据集。为什么会这样?

时间:2017-07-20 08:41:46

标签: r csv read.csv

我正在研究来自kaggle的泰坦尼克号数据集,并注意到在数据集的末尾加载了缺失/空白观察,如屏幕截图所示

使用read.csv将数据集加载到R中 image

使用read_csv将数据集加载到R中 image

我使用两种方法来查看差异,但两者都以相同的方式加载,方法是将数据集中的最后一行/观察值加载到R中作为NA。一个明显的区别是read_csv已将最后一次观察的所有变量值加载为NA,其中read.csv仅对其中一些进行了。

titanic_original_read_csv <- read_csv("titanic_original.csv", col_names = TRUE)

titanic_original_readcsv <- read.csv("titanic_original.csv", header = TRUE)

我检查了csv文件,它有1310行,包括列标题。因此,当它加载到R时,它应该只有1309个观测值。

为什么NA​​加载为我加载的数据集中的最后一个观察值?有什么我想念的吗?

1 个答案:

答案 0 :(得分:0)

r&lt; - readLines(“titanic_original.csv”); @RemkoDuursma提供的r [length(r)]响应有助于识别csv文件末尾有一条不完整的行。

原始文件采用xlsx格式,但我已将其保存为csv并尝试使用read_csv函数加载。但在这次转换期间,一些不完整的行如何加起来。

大多数人说这是转换问题,建议使用read_excel函数加载xlsx文件,避免随时将xlsx转换为csv。