所以故事是我有一个需要读入R的30 gig txt文件,它包含两个cols和大约20亿行整数!我不想一次性加载整个东西,相当大的块就足够了。
我尝试过使用带有nrow = 10000000和skip =“stupidly_large_number”等参数的read.table
但是当我浏览文件
时,我收到以下错误Error in readLines(file, skip):
cannot allocate vector of length 1800000000
请帮助我获取数据并提前致谢!
答案 0 :(得分:0)
在我看来,您可能需要先将文本文件拆分为可管理的块,然后再尝试处理它们。 unix split命令应该可以解决问题,但我不知道你是否在一个存在该命令的平台上。