如何将计划拆分为Spark中的Job和stage?

时间:2016-01-07 16:03:08

标签: apache-spark

我正在尝试了解如何将查询计划拆分为Spark中的作业,以及Spark如何决定在工作和阶段中拆分工作流程。

我的查询是一个大表(22Gb)和一个小表(300Mb)之间的简单连接:

split

我用ShuffledHashJoin和BroadcastHashJoin执行它。

对于ShuffledHashJoin,我只得到一份工作:

enter image description here

和4阶段:

enter image description here

对于BroadcastHashJoin,我得到3份工作:

enter image description here

4阶段:

enter image description here

enter image description here enter image description here

这个Job的分区是由我在使用BroadcastHashJoin时所需的驱动程序上的“collect”引起的?

0 个答案:

没有答案