read.csv.ffdf时如何处理整数列中的NA值?

时间:2014-11-09 08:49:36

标签: r csv

我正在尝试将60个巨大的.csv文件导入到R中,每个文件至少有500K行,总大小约为3.7gb。我到目前为止最好的拍摄是

headset = read.csv("file.csv", header = TRUE, nrows = 5000)
headclasses = sapply(headset, class)
temp = list.files(pattern="*.csv")
for (i in 1:length(temp)) bigdata <- assign(temp[i], read.csv.ffdf(file=temp[i],
header=TRUE,VERBOSE=TRUE, first.rows=1000, next.rows=700000, colClasses=headclasses))

但这有两个问题:

  • 它导入所有数据,但当我(bigdata)它只显示来自上一个文件的数据头时,尽管for()...

  • 没有任何问题。
  • 在.csv的一些整数列中,只有很少的NA值,但它不会读取它,有人知道如何解决这个问题吗?如果函数读取它,我会知道如何替换它们,但是......逻辑类型列的情况相同。

导入这些大数据的其他函数都没有用(read.csv等),所以我必须使用这个。

0 个答案:

没有答案