Spark Sort应用程序的DAG跨越两个作业

时间:2016-05-27 16:56:55

标签: scala apache-spark yarn

我已经用Spark编写了一个非常简单的Sort scala程序。

FormClosing

现在,我在想,因为只有一个广泛的转换(" sortByKey")将跨越两个阶段。但是我看到两个工作在Job 0中有一个阶段,在Job 1中有两个阶段。我错过了什么吗?我不能得到的是第二份工作的第一阶段。它似乎与Job 0的阶段做同样的工作。

Two jobs Job 0 Job 1

1 个答案:

答案 0 :(得分:0)

sortByKey仅出现在第一个作业中。以下是第一份工作中的子任务:

  • spark.textFile(filename,splits)
  • data_map.sortByKey()

第二项工作有两项任务:

  • 地图:.map { line => line._1}

  • saveAsTextFile

请注意,第二个作业中的第一个任务会在第一个作业(sortByKey)离开的位置。您也可以通过查看执行时间来验证这一点:该阶段只需4.4分钟。

现在为什么第二份工作的可视化显示了第一份工作中完成的所有工作?我不知道但sortByKey作品似乎没有执行两次。