了解DAG可视化。为什么我的工作需要这么长时间?

时间:2016-08-03 00:14:36

标签: apache-spark

我有一个花了太长时间的火花工作。有一个阶段有432个任务。 395项任务几乎立即完成。在接下来的10个小时里,剩下的任务很难完成。我在杀死集群之前完成了另外30个任务,调整了代码并再次尝试。但我在黑暗中工作,因为我不知道导致这项工作花了这么长时间。

我发现了DAG可视化页面。对于这项工作,它看起来像这样:

DAG visualization of job that takes too long

该页面还报告了阶段31,31,34,35& 36完成了。 33正在等待,37正在进行中。

问题1,作为旁边:如果34依赖于33,那么阶段33如何处理以及阶段34如何完成?

如果我钻进第37阶段,我会看到这个DAG。

DAG of long-running stage

问题2 :这能否为我提供有关为什么我的舞台长期运行的线索?它似乎没有。

迄今已完成的任务摘要(目前为1.1小时)。

Summary of tasks completed at 1.1hrs

放大最大值:

Max metrics for tasks completed

编辑:这是我的遗嘱执行人所做的事情:

Executor summary

问题3 :这些值是否值得关注?他们对我来说都很合理。

最后的问题:我还能在哪里了解我的遗嘱执行人员在做什么?

编辑:我发现Executors页面上的堆栈转储有助于准确理解瓶颈的位置。在优化这项工作方面,我是否还有任何其他线索?

0 个答案:

没有答案