我有一个Spark作业,它给了我一个 Java.lang.OutOfMemoryError:Java堆空间(或一些GC开销)。
它出现在一个任务中,完成任务的静态显示75百分位内存,磁盘溢出为0,但最大值分别为1732.5 MB和145.5 MB。
我很确定我有一个键,它代表了leftOuterJoin中70%以上的所有行。
在进行此连接时,有没有办法在多个分区上将值关联点传播到此键?
由于
答案 0 :(得分:0)
根据您的数据大小,您可以尝试广播联接(实际上是地图联接)
http://henning.kropponline.de/2016/12/11/broadcast-join-with-spark/