文件135M行,22个cols在前4行中随机标题后跟列标题。如何跳过R中Laf Package中的前几行

时间:2016-12-08 14:14:33

标签: r ff large-data bigdata

我正在使用LaF软件包读取这个包含135M行和22个Cols~15 GB原始数据的大文件,并用管道分隔。 遗憾的是,原始文件在前4行中随机标题后跟列标题。

编辑:很抱歉我之前应该提到过,我在Windows Server 2012 R2上

数据如下:

gpg: encrypted with 1024-bit ELG key, ID XXXXXXXX, created 2006-10-30
***email id*** 
gpg: encrypted with 2048-bit RSA key, ID XXXXXXXX, created 2014-12-05
***email id*** 
COLUMN HEADERS (22) 
DATA 
. 
. 
.

我可以通过跳过前4行来正确地获得模型。

modelF1 <- detect_dm_csv("trxn_.txt", sep="|", header=TRUE, nrows=10000, skip=4)
dfF1Laf <- laf_open(modelF1)

但是当我尝试使用goto跳过前4行时,它会给我以下错误

goto(dfF1Laf,6)
  

goto(dfF1Laf,6)出错:行列太多

我该如何解决这个问题?

我需要能够汇总数据,所以我使用这个包,因为它似乎很适合我的目的。我尝试了ffdf,data.table :: fread,但它们要么太慢,要么无法放入RAM中。

我也愿意使用其他软件包。

0 个答案:

没有答案