要读入R的海量文本文件

时间:2013-10-18 19:54:55

标签: bigdata read.table

所以故事是我有一个需要读入R的30 gig txt文件,它包含两个cols和大约20亿行整数!我不想一次性加载整个东西,相当大的块就足够了。

我尝试过使用带有nrow = 10000000和skip =“stupidly_large_number”等参数的read.table

但是当我浏览文件

时,我收到以下错误
Error in readLines(file, skip):
    cannot allocate vector of length 1800000000

请帮助我获取数据并提前致谢!

1 个答案:

答案 0 :(得分:0)

在我看来,您可能需要先将文本文件拆分为可管理的块,然后再尝试处理它们。 unix split命令应该可以解决问题,但我不知道你是否在一个存在该命令的平台上。