合并大数据帧多次耗尽内存

时间:2017-11-15 01:51:14

标签: r dplyr out-of-memory left-join

我正在尝试将大数据帧过滤两次(DF1 and DF2),然后将两个过滤后的数据帧合并为一个数据帧(DF1+DF2->DF3)多次,并将结果合并为一个数据帧{{1但是,继续耗尽内存(8Gb)。初始和最终数据框架可轻松放入笔记本电脑中,因此其处理耗尽内存。

哪种方法最快且需要的内存最少?我应该在部分中运行代码并重新组合,获得更大的枪支,还是这是关系数据库或(DF=DF3[1]+DF3[2]...DF[n])的工作?

下面的代码说明了问题。

MapReduce

0 个答案:

没有答案