应用错误收集

重做具有两个数据帧的当前进程。

DF1-65kish行，15列 DF2-300kish行，270列

我们正在通过zip进行合并：

  newdf <- merge(df1, df2, by.x = "ZipA", by.y = "ZipB")

这很慢，并且可能会终止，具体取决于EC2实例上当前正在运行的内容。重要说明：每个DF中的邮编不是唯一的（这是设计使然）人们会建议其他哪些选择？

sqldf？ data.table？ sparklyr（我们有一个spark后端设置，但是没有人使用它）？

在这里，如何使它更有效确实是一个迷茫，但恐怕我们可能会由于数据的构造而陷入困境。