Question

我正在使用LaF软件包读取这个包含135M行和22个Cols~15 GB原始数据的大文件，并用管道分隔。遗憾的是，原始文件在前4行中随机标题后跟列标题。

编辑：很抱歉我之前应该提到过，我在Windows Server 2012 R2上

数据如下：

gpg: encrypted with 1024-bit ELG key, ID XXXXXXXX, created 2006-10-30
***email id*** 
gpg: encrypted with 2048-bit RSA key, ID XXXXXXXX, created 2014-12-05
***email id*** 
COLUMN HEADERS (22) 
DATA 
. 
. 
.

我可以通过跳过前4行来正确地获得模型。

modelF1 <- detect_dm_csv("trxn_.txt", sep="|", header=TRUE, nrows=10000, skip=4)
dfF1Laf <- laf_open(modelF1)

但是当我尝试使用goto跳过前4行时，它会给我以下错误

goto(dfF1Laf,6)

goto（dfF1Laf，6）出错：行列太多

我该如何解决这个问题？

我需要能够汇总数据，所以我使用这个包，因为它似乎很适合我的目的。我尝试了ffdf，data.table :: fread，但它们要么太慢，要么无法放入RAM中。

我也愿意使用其他软件包。

文件135M行，22个cols在前4行中随机标题后跟列标题。如何跳过R中Laf Package中的前几行

0 个答案: