首先,很抱歉您可能会重复此问题。 但是,我看了很多其他类似的问题,但无法解决我的问题。
好吧,我正在处理一个庞大的数据集,其中包含184,903,890行。超过6.5GB的对象。 可通过以下链接访问此csv文件:Ad Tracking Fraud Detection Challenge
我正在具有以下规格的PC上运行它:
但是,即使试图将列设置为“日期”,系统也会停止工作。 是否可以仅使用R处理这种大小的数据集?
代码详细信息:
training <- fread('train.csv')
一些尝试停止R或返回而无法分配大小为...的向量:
training$click_time <- as.Date(training$click_time)
training$click_time <- as.POSIXct(training$click_time, 'GMT')
training <- training %>% mutate(d_month = sapply(click_time, mday)
其他更新:
答案 0 :(得分:0)
也许您已达到分配给R的内存。请尝试memory_limit()
,如果需要,您可以使用memory.limit(size = xxxx)
来增加默认值