我正在使用LaF软件包读取这个包含135M行和22个Cols~15 GB原始数据的大文件,并用管道分隔。 遗憾的是,原始文件在前4行中随机标题后跟列标题。
编辑:很抱歉我之前应该提到过,我在Windows Server 2012 R2上
数据如下:
gpg: encrypted with 1024-bit ELG key, ID XXXXXXXX, created 2006-10-30
***email id***
gpg: encrypted with 2048-bit RSA key, ID XXXXXXXX, created 2014-12-05
***email id***
COLUMN HEADERS (22)
DATA
.
.
.
我可以通过跳过前4行来正确地获得模型。
modelF1 <- detect_dm_csv("trxn_.txt", sep="|", header=TRUE, nrows=10000, skip=4)
dfF1Laf <- laf_open(modelF1)
但是当我尝试使用goto跳过前4行时,它会给我以下错误
goto(dfF1Laf,6)
goto(dfF1Laf,6)出错:行列太多
我该如何解决这个问题?
我需要能够汇总数据,所以我使用这个包,因为它似乎很适合我的目的。我尝试了ffdf,data.table :: fread,但它们要么太慢,要么无法放入RAM中。
我也愿意使用其他软件包。