Question

所以故事是我有一个需要读入R的30 gig txt文件，它包含两个cols和大约20亿行整数！我不想一次性加载整个东西，相当大的块就足够了。

我尝试过使用带有nrow = 10000000和skip =“stupidly_large_number”等参数的read.table

但是当我浏览文件

时，我收到以下错误

Error in readLines(file, skip):
    cannot allocate vector of length 1800000000

请帮助我获取数据并提前致谢！

Answer 1

在我看来，您可能需要先将文本文件拆分为可管理的块，然后再尝试处理它们。 unix split命令应该可以解决问题，但我不知道你是否在一个存在该命令的平台上。