Spark阶段停留在待定状态

时间:2018-10-08 14:34:27

标签: apache-spark pyspark apache-spark-sql amazon-emr parquet

我正在运行一个非常简单的Spark作业:每个读取两个Parquet数据集(10-100GB),进行一堆联接,并将结果写回到Parquet。

火花似乎总是卡在最后一个阶段。即使之前的所有阶段都已完成,阶段仍保持“待处理”状态,并且有执行者在等待。我已经等了1.5个小时,而且一直停滞不前。

我尝试了以下绝望的措施:

  • 使用较小的数据集似乎可以工作,但是随后计划发生了变化(例如,一些广播联接开始弹出),因此实际上并没有帮助进行故障排除。
  • 分配更多的执行程序或驱动程序内存似乎无济于事。

有什么主意吗?


详细信息

job details

0 个答案:

没有答案