Spark左外连接内存问题

时间:2017-07-04 21:29:48

标签: apache-spark join memory

我有一个Spark作业,它给了我一个 Java.lang.OutOfMemoryError:Java堆空间(或一些GC开销)。

它出现在一个任务中,完成任务的静态显示75百分位内存,磁盘溢出为0,但最大值分别为1732.5 MB和145.5 MB。

我很确定我有一个键,它代表了leftOuterJoin中70%以上的所有行。

在进行此连接时,有没有办法在多个分区上将值关联点传播到此键?

由于

1 个答案:

答案 0 :(得分:0)

根据您的数据大小,您可以尝试广播联接(实际上是地图联接)

http://henning.kropponline.de/2016/12/11/broadcast-join-with-spark/