重做具有两个数据帧的当前进程。
DF1-65kish行,15列 DF2-300kish行,270列
我们正在通过zip进行合并:
newdf <- merge(df1, df2, by.x = "ZipA", by.y = "ZipB")
这很慢,并且可能会终止,具体取决于EC2实例上当前正在运行的内容。重要说明:每个DF中的邮编不是唯一的(这是设计使然)人们会建议其他哪些选择?
sqldf? data.table? sparklyr(我们有一个spark后端设置,但是没有人使用它)?
在这里,如何使它更有效确实是一个迷茫,但恐怕我们可能会由于数据的构造而陷入困境。