应用错误收集

Spark DataFrame：连接停留在同一阶段

时间：2018-11-13 13:03:38

标签： apache-spark pyspark apache-spark-sql pyspark-sql

我正在将行数分别为17M和2.2M的两个大型数据集连接在一起。

两个数据集的分区大小为：

mob_join_set：

dth_join_set：

Job总是卡在联接的最后两个任务上：

甚至尝试过G1GC和spark.sql.shuffle.partitions = 500，spark.default.parallelism = 500 但是没有成功。

任何帮助将不胜感激。

0 个答案:

没有答案