如何在R中操纵庞大的数据集?

时间:2019-03-10 15:08:21

标签: r dataset bigdata

首先,很抱歉您可能会重复此问题。 但是,我看了很多其他类似的问题,但无法解决我的问题。

好吧,我正在处理一个庞大的数据集,其中包含184,903,890行。超过6.5GB的对象。 可通过以下链接访问此csv文件:Ad Tracking Fraud Detection Challenge

我正在具有以下规格的PC上运行它:

  • i7-7700K-4.2GHz
  • 16GB Ram
  • 具有11.2GB DDR 5的GeForce GTX 1080 Ti

但是,即使试图将列设置为“日期”,系统也会停止工作。 是否可以仅使用R处理这种大小的数据集?

代码详细信息:

training <- fread('train.csv')

一些尝试停止R或返回而无法分配大小为...的向量:

training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)

其他更新:

  • 我已经使用gc()清理内存了;
  • 我仅选择了2列用于新数据集;

1 个答案:

答案 0 :(得分:0)

也许您已达到分配给R的内存。请尝试memory_limit(),如果需要,您可以使用memory.limit(size = xxxx)来增加默认值