标签: join apache-spark rdd
我需要加入两个RDD,其中一个是(150K,25K),另一个是(3M,4)。但是,当我尝试rdd1.join(rdd2)时,需要很长时间并且错误消息“GC集合超出限制”。我已经将执行程序内存设置为16GB。
rdd1.join(rdd2)
我想这是我的问题:
(1)根据数据大小
(2)对于这种类型的矩阵连接,我应该考虑使用EMR Spark,这样它可以很好地扩展而不会有太多的麻烦,或者我应该开始使用GPU,因为它更好地处理矩阵操作....任何建议/想法都会不胜感激。