标签: apache-spark pyspark apache-spark-sql amazon-emr parquet
我正在运行一个非常简单的Spark作业:每个读取两个Parquet数据集(10-100GB),进行一堆联接,并将结果写回到Parquet。
火花似乎总是卡在最后一个阶段。即使之前的所有阶段都已完成,阶段仍保持“待处理”状态,并且有执行者在等待。我已经等了1.5个小时,而且一直停滞不前。
我尝试了以下绝望的措施:
有什么主意吗?
client-mode