如何获得火花任务的详细信息

时间:2018-02-07 09:13:27

标签: apache-spark

通过查看Spark UI时间轴,我发现我的spark应用程序特定阶段的上一个任务总是花费太多时间。似乎任务无法永远完成,我甚至比正常任务等待时间长六倍。

我希望获得有关lask任务的更多信息,但我不知道如何调试此特定任务,是否有人可以给我一些建议?

感谢您的帮助!

  

数据分区很好,因此lask任务没有太多数据。

1 个答案:

答案 0 :(得分:1)

  1. 检查结果数据框的说明计划,以了解正在进行的操作。有没有洗牌?有时,当对数据帧(例如连接)执行操作时,它可能导致中间数据帧被映射到较少数量的分区,这可能导致性能降低,因为数据不是按照可能的分布。

  2. 检查是否有大量的随机播放和对此类数据帧的重复调用,并尝试缓存在随机播放后出现的数据帧。

  3. 检查Spark UI(驱动程序的地址:4040是默认值)并查看缓存数据帧的数据量是什么,进程是什么以及是否存在任何其他开销,例如gc或者是否纯处理时间。

  4. 希望有所帮助。