将20 GB的csv文件加载到R中的最佳方法是什么?

时间:2019-09-05 13:03:01

标签: r bigdata

我有一个20 GB的数据集,我必须在R中使用它。现在,我读了几篇有关如何处理此问题的文章,但我不知道读取20 GB的最佳和最有效的方法是什么。 R中的数据。

重要的是,我不需要所有数据,因此在继续构建模型之前,必须过滤/清理数据。

用Chunks将数据集读入R是否有想法?将数据读入块中并读入R的最佳方法是什么?

我希望有人能帮助我。

亲切的问候,

Matthijs

2 个答案:

答案 0 :(得分:2)

您可以将数据加载到不同的部分。就像您在评论中建议的那样,您可以选择1万行,然后再选择1万行,依此类推。

由于您正在使用.csv文件,因此建议您使用read.csv()函数。

示例:

data <- read.csv("file = C:\Path\To\YourFile.csv", nrows = 10000, skip = 10000)

=您要R读取的行数。

跳过 =您要R跳过的行数。

答案 1 :(得分:0)

就速度和效率而言,fread软件包中的data.table函数可能是最好的现成函数。如前所述,您仍然可以包含nrowsskip参数来分段读取数据。