我正在尝试将60个巨大的.csv文件导入到R中,每个文件至少有500K行,总大小约为3.7gb。我到目前为止最好的拍摄是
headset = read.csv("file.csv", header = TRUE, nrows = 5000)
headclasses = sapply(headset, class)
temp = list.files(pattern="*.csv")
for (i in 1:length(temp)) bigdata <- assign(temp[i], read.csv.ffdf(file=temp[i],
header=TRUE,VERBOSE=TRUE, first.rows=1000, next.rows=700000, colClasses=headclasses))
但这有两个问题:
它导入所有数据,但当我(bigdata)它只显示来自上一个文件的数据头时,尽管for()...
在.csv的一些整数列中,只有很少的NA值,但它不会读取它,有人知道如何解决这个问题吗?如果函数读取它,我会知道如何替换它们,但是......逻辑类型列的情况相同。
导入这些大数据的其他函数都没有用(read.csv等),所以我必须使用这个。