火花了解作业之间的间隔

时间:2018-06-20 02:09:43

标签: apache-spark yarn

在spark UI中,我想知道作业之间正在发生什么,并寻找任何减少作业的方法,尤其是在收集后和编写拼花之前。 在提交镶木地板之前,我看到了一个很长的休息时间,差不多是1分钟。考虑到整个应用程序需要2分钟的时间,因此它所占的比例很大。这种中断通常是否意味着火花遍及所有工人并收集数据?即使这样,实木复合地板前的间隔也比其他动作(例如“收集”或“首先”)长得多。 谢谢

这是图片 enter image description here

1 个答案:

答案 0 :(得分:0)

根据我的经验,当您工作的 driver 部分忙于工作时,通常会出现这种延迟。例如,如果您执行.collect(),然后遍历结果Array,则该工作是在 driver 上按顺序进行的,将导致没有任务分配在这段时间内交给执行者。