我想将一个较大的Spark数据帧与一个相对较小的数据帧进行联接

时间:2018-11-22 09:39:56

标签: apache-spark apache-spark-sql left-join apache-spark-2.1

我正在将一个具有2300万条记录的Spark数据框与一个具有50万条记录的数据框连接起来。广播连接似乎不可行,因为较小的表无法放入要分配给所有工作程序的内存中。每当我执行连接时,Spark都会暂停洗牌任务,并且不会继续。我应该如何继续加入?

0 个答案:

没有答案