Read.csv不在我的数据集中计数NA

时间:2017-08-24 22:06:53

标签: r na read.csv

关于SO的第一篇文章,所以我期待在论坛上从R的一些退伍军人那里得到一些反馈。 :)

我有一个CSV file (2.52KB),当我运行以下NA识别脚本时,我目前无法识别NAs(特别是在ORG列中):

 mydata = read.csv("DF_Cleanup_isNAError_Test.csv" header = TRUE, sep = ",", quote = "", dec = ".", fill = TRUE)
 nan_count <-sapply(mydata, function(y) sum(length(which(is.na(y)))))
 nan_count <- data.frame(nan_count)
 nan_count

当我在control data set中隔离ORG列中包含NA值的记录(仅总共30行)时,运行相同的NA识别脚本会为列ORG返回30的计数。这也适用于上面的脚本,但是没有发生。

mydata = read.csv("DF_Cleanup_isNAError_Control.csv" header = TRUE, sep = ",", quote = "", dec = ".", fill = TRUE)
nan_count <-sapply(mydata, function(y) sum(length(which(is.na(y)))))
nan_count <- data.frame(nan_count)
nan_count

我现在完全不知道为什么在没有关于相关个人记录的任何改变时,数据集中添加其他记录会有所不同。测试数据集仍然只是总人口数据的一个子集;我总共有大约850K,但我认为这是隔离问题的良好开端。

这是我当前的会话信息

    R version 3.4.1 (2017-06-30)
    Platform: x86_64-w64-mingw32/x64 (64-bit)
    Running under: Windows 7 x64 (build 7601) Service Pack 1

   Matrix products: default

   locale:
   [1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United 
   States.1252    LC_MONETARY=English_United States.1252
   [4] LC_NUMERIC=C                           LC_TIME=English_United States.1252    

   attached base packages:
   [1] stats     graphics  grDevices utils     datasets  methods   base     

   other attached packages:
   [1] dplyr_0.7.2

   loaded via a namespace (and not attached):
    [1] compiler_3.4.1   magrittr_1.5     assertthat_0.2.0 R6_2.2.2         
    tools_3.4.1      bindrcpp_0.2     glue_1.1.1       tibble_1.3.3    
     [9] Rcpp_0.12.12     pkgconfig_2.0.1  rlang_0.1.1      bindr_0.1  

1 个答案:

答案 0 :(得分:1)

@jav在评论部分回答了这一点,但我认为这实际上应该作为答案列出。如果他将他的评论作为答案重新发布,我将删除它。

na.strings = ""添加到read.csv("filename.csv")可以解决问题。