Spark DataFrame:连接停留在同一阶段

时间:2018-11-13 13:03:38

标签: apache-spark pyspark apache-spark-sql pyspark-sql

我正在将行数分别为17M和2.2M的两个大型数据集连接在一起。 enter image description here

两个数据集的分区大小为:

mob_join_set:

enter image description here

dth_join_set:

enter image description here

Job总是卡在联接的最后两个任务上:

enter image description here

甚至尝试过G1GC和spark.sql.shuffle.partitions = 500,spark.default.parallelism = 500 但是没有成功。

任何帮助将不胜感激。

0 个答案:

没有答案