在R中读取大于内存的文件的有效方法

时间:2016-12-12 20:04:10

标签: r data.table ff

此引用https://www.r-bloggers.com/efficiency-of-importing-large-csv-files-in-r/比较使用fread和ffdf读取文件。我目前正在尝试读取一个容量为60GB的csv文件,而我在RAM上的可用内存为16GB。这需要大约2个小时。你会建议更快的方式吗?

3 个答案:

答案 0 :(得分:1)

bigmemory在这种情况下有效。

library(bigmemory)
library(biganalytics)
x <- read.big.matrix("airline.csv", type="integer", header=TRUE,
                     backingfile="airline.bin",
                     descriptorfile="airline.desc",
                     extraCols="Age")

答案 1 :(得分:0)

使用Data.Table包。

似乎功能读取更快。

功能:

"File Name"<- fread("Uploadfile.txt", header =  TRUE, colClasses = "character")

答案 2 :(得分:0)

disk.frame可以将文件分成小块,使用fst格式,并且您可以使用data.table或dplyr语法。

install.packages(“ disk.frame”)

有关更多信息,请参见此处:https://diskframe.com/#:~:text=frame%7D%20is%20an%20R%20package,to%20be%20processed%20by%20R