标签: apache-spark pyspark apache-spark-sql pyspark-sql
我正在将行数分别为17M和2.2M的两个大型数据集连接在一起。
两个数据集的分区大小为:
mob_join_set:
dth_join_set:
Job总是卡在联接的最后两个任务上:
甚至尝试过G1GC和spark.sql.shuffle.partitions = 500,spark.default.parallelism = 500 但是没有成功。
任何帮助将不胜感激。