关于SO的第一篇文章,所以我期待在论坛上从R的一些退伍军人那里得到一些反馈。 :)
我有一个CSV file (2.52KB),当我运行以下NA识别脚本时,我目前无法识别NAs(特别是在ORG列中):
mydata = read.csv("DF_Cleanup_isNAError_Test.csv" header = TRUE, sep = ",", quote = "", dec = ".", fill = TRUE)
nan_count <-sapply(mydata, function(y) sum(length(which(is.na(y)))))
nan_count <- data.frame(nan_count)
nan_count
当我在control data set中隔离ORG列中包含NA值的记录(仅总共30行)时,运行相同的NA识别脚本会为列ORG返回30的计数。这也适用于上面的脚本,但是没有发生。
mydata = read.csv("DF_Cleanup_isNAError_Control.csv" header = TRUE, sep = ",", quote = "", dec = ".", fill = TRUE)
nan_count <-sapply(mydata, function(y) sum(length(which(is.na(y)))))
nan_count <- data.frame(nan_count)
nan_count
我现在完全不知道为什么在没有关于相关个人记录的任何改变时,数据集中添加其他记录会有所不同。测试数据集仍然只是总人口数据的一个子集;我总共有大约850K,但我认为这是隔离问题的良好开端。
这是我当前的会话信息
R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
Matrix products: default
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United
States.1252 LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C LC_TIME=English_United States.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] dplyr_0.7.2
loaded via a namespace (and not attached):
[1] compiler_3.4.1 magrittr_1.5 assertthat_0.2.0 R6_2.2.2
tools_3.4.1 bindrcpp_0.2 glue_1.1.1 tibble_1.3.3
[9] Rcpp_0.12.12 pkgconfig_2.0.1 rlang_0.1.1 bindr_0.1
答案 0 :(得分:1)
@jav在评论部分回答了这一点,但我认为这实际上应该作为答案列出。如果他将他的评论作为答案重新发布,我将删除它。
将na.strings = ""
添加到read.csv("filename.csv")
可以解决问题。