我有一个20 GB的数据集,我必须在R中使用它。现在,我读了几篇有关如何处理此问题的文章,但我不知道读取20 GB的最佳和最有效的方法是什么。 R中的数据。
重要的是,我不需要所有数据,因此在继续构建模型之前,必须过滤/清理数据。
用Chunks将数据集读入R是否有想法?将数据读入块中并读入R的最佳方法是什么?
我希望有人能帮助我。
亲切的问候,
Matthijs
答案 0 :(得分:2)
您可以将数据加载到不同的部分。就像您在评论中建议的那样,您可以选择1万行,然后再选择1万行,依此类推。
由于您正在使用.csv文件,因此建议您使用read.csv()
函数。
示例:
data <- read.csv("file = C:\Path\To\YourFile.csv", nrows = 10000, skip = 10000)
行 =您要R读取的行数。
跳过 =您要R跳过的行数。
答案 1 :(得分:0)
就速度和效率而言,fread
软件包中的data.table
函数可能是最好的现成函数。如前所述,您仍然可以包含nrows
和skip
参数来分段读取数据。