我正在处理1-10 GB的超大型csv文件。我发现我需要使用ff-package读取数据。但是,这似乎不起作用。我怀疑问题在于我大约有73 000列,并且由于ff逐行读取,因此R的内存大小太大。我的计算机具有128 GB的内存,因此硬件不应受到限制。
这有什么办法代替按列读取数据吗?
注意:在每个文件中,有10行文本需要删除,然后才能成功将文件读取为矩阵。我以前通过在相同类型的较小文件上使用read.csv(file,skip = 10,header = T,fill = T)处理此问题。 Here is a picture of how a smaller version of the data sets looks in excel