不为Stage创建的任务 - Spark

时间:2018-01-10 18:16:44

标签: apache-spark

我的工作是将HiveQL加入2个表(2.5 TB,45GB),重新分区为100,然后进行其他一些转换。这在早些时候执行得很好。

工作阶段: 第0阶段:蜂巢表1扫描 第1阶段:Hive表2扫描 第2阶段:连接的钨交换 第3阶段:用于赔偿的钨交换

今天,这项工作陷入了第二阶段。在应该执行的200项任务中,没有一项已经启动,但是由于被抢先执行者而导致290项失败。

在向下钻取舞台时,它说“没有执行者报告的指标”。在executors选项卡下,我可以看到40个具有活动任务的执行程序。此外,当第2阶段开始时,随机播放逐渐增加并停止在45GB,此后我看不到任何进展。

有关如何解决此问题的任何意见?我将尝试减少执行程序内存以查看资源分配是否是问题。

感谢。

1 个答案:

答案 0 :(得分:1)

原来这是一个巨大的数据集,并且在此阶段正在重新评估联接。这些任务在读取数据集时运行了很长时间。我坚持使用已连接的数据集来加快进度。