Question

我正在研究来自kaggle的泰坦尼克号数据集，并注意到在数据集的末尾加载了缺失/空白观察，如屏幕截图所示

使用read.csv将数据集加载到R中

使用read_csv将数据集加载到R中

我使用两种方法来查看差异，但两者都以相同的方式加载，方法是将数据集中的最后一行/观察值加载到R中作为NA。一个明显的区别是read_csv已将最后一次观察的所有变量值加载为NA，其中read.csv仅对其中一些进行了。

titanic_original_read_csv <- read_csv("titanic_original.csv", col_names = TRUE)

titanic_original_readcsv <- read.csv("titanic_original.csv", header = TRUE)

我检查了csv文件，它有1310行，包括列标题。因此，当它加载到R时，它应该只有1309个观测值。

为什么NA加载为我加载的数据集中的最后一个观察值？有什么我想念的吗？

Answer 1

r＆lt; - readLines（“titanic_original.csv”）; @RemkoDuursma提供的r [length（r）]响应有助于识别csv文件末尾有一条不完整的行。

原始文件采用xlsx格式，但我已将其保存为csv并尝试使用read_csv函数加载。但在这次转换期间，一些不完整的行如何加起来。

大多数人说这是转换问题，建议使用read_excel函数加载xlsx文件，避免随时将xlsx转换为csv。

在R中加载CSV文件会加载NA观察值作为最后一个数据集。为什么会这样？

1 个答案: