在阶段中了解Spark终端输出

时间:2016-10-22 21:47:09

标签: apache-spark

我是Spark的新手,我正试图了解终端上各阶段的日志输出。我在本地计算机上使用非常大的数据集,在操作过程中,我会看到类似的内容:

[Stage: 4 ==>           (10 + 4) / 200]

我知道阶段是RDD发生的所有操作,但最后的数字呢?他们代表任务吗?

(10 + 4) / 200] 
  • 10已完成的任务数量?
  • 4正在运行的并发任务数(即我机器上的核心数量?)
  • 200此阶段的任务总数?

1 个答案:

答案 0 :(得分:2)

它被称为控制台进度条。对于上述阶段,这是数字的含义,

[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

希望这有帮助,干杯。