在中等大小的数据集上加入dplyr中的数据集时的速度

时间:2016-08-26 22:15:09

标签: r dplyr

我通过公共标识符加入两个数据集。数据集A是18022行* 75列,而数据集B是2.8千米行* 25列。我跑

left_join(A,B,by='identifier')

然而,前两次它在没有任何警告的情况下自动崩溃并重新启动Rstudio服务器,现在是第三次运行25分钟。没有进度条。知道这个过程需要多长时间?

我在最新的dplyr版本上使用Rstudio服务器在EC2实例(t2.micro)上运行。

崩溃/性能可能是由于分配给实例的RAM不足造成的吗?

0 个答案:

没有答案