数据工作流 - 在R中聚集5000万行的麻烦?

时间:2018-02-03 02:33:49

标签: r database spark-dataframe

数据集以12个月的csv文件开头。每个文件都加载到R中以便使用。一步是找到导致400万行的某个因子组的所有组合。我的计算机上有16GB RAM,其他任务,不足以存储所有12x4百万行。最终目标是分组并总结5000万行。不知道怎么做,希望得到建议。

我有过一些想法/想法: 将每个400万行数据集写入数据库然后进行聚合?我对RODBC这个尺寸的速度太慢感到麻烦。还是使用SQLite的本地数据库? SparklyR怎么样?

0 个答案:

没有答案