Spark规则来估计JOIN资源使用情况

时间:2015-10-16 15:58:52

标签: join apache-spark rdd

我需要加入两个RDD,其中一个是(150K,25K),另一个是(3M,4)。但是,当我尝试rdd1.join(rdd2)时,需要很长时间并且错误消息“GC集合超出限制”。我已经将执行程序内存设置为16GB。

我想这是我的问题:

(1)根据数据大小

调整执行程序内存大小的经验法则是什么

(2)对于这种类型的矩阵连接,我应该考虑使用EMR Spark,这样它可以很好地扩展而不会有太多的麻烦,或者我应该开始使用GPU,因为它更好地处理矩阵操作....任何建议/想法都会不胜感激。

0 个答案:

没有答案