标签: r dplyr out-of-memory left-join
我正在尝试将大数据帧过滤两次(DF1 and DF2),然后将两个过滤后的数据帧合并为一个数据帧(DF1+DF2->DF3)多次,并将结果合并为一个数据帧{{1但是,继续耗尽内存(8Gb)。初始和最终数据框架可轻松放入笔记本电脑中,因此其处理耗尽内存。
(DF1 and DF2)
(DF1+DF2->DF3)
哪种方法最快且需要的内存最少?我应该在部分中运行代码并重新组合,获得更大的枪支,还是这是关系数据库或(DF=DF3[1]+DF3[2]...DF[n])的工作?
(DF=DF3[1]+DF3[2]...DF[n])
下面的代码说明了问题。
MapReduce