Question

我正在尝试将60个巨大的.csv文件导入到R中，每个文件至少有500K行，总大小约为3.7gb。我到目前为止最好的拍摄是

headset = read.csv("file.csv", header = TRUE, nrows = 5000)
headclasses = sapply(headset, class)
temp = list.files(pattern="*.csv")
for (i in 1:length(temp)) bigdata <- assign(temp[i], read.csv.ffdf(file=temp[i],
header=TRUE,VERBOSE=TRUE, first.rows=1000, next.rows=700000, colClasses=headclasses))

但这有两个问题：

它导入所有数据，但当我（bigdata）它只显示来自上一个文件的数据头时，尽管for（）...
在.csv的一些整数列中，只有很少的NA值，但它不会读取它，有人知道如何解决这个问题吗？如果函数读取它，我会知道如何替换它们，但是......逻辑类型列的情况相同。

导入这些大数据的其他函数都没有用（read.csv等），所以我必须使用这个。

read.csv.ffdf时如何处理整数列中的NA值？

0 个答案: