标签: apache-spark apache-spark-sql left-join apache-spark-2.1
我正在将一个具有2300万条记录的Spark数据框与一个具有50万条记录的数据框连接起来。广播连接似乎不可行,因为较小的表无法放入要分配给所有工作程序的内存中。每当我执行连接时,Spark都会暂停洗牌任务,并且不会继续。我应该如何继续加入?