什么是Apache Spark Job,Task和Stage以及Job,Task和Stage之间的区别是什么?
答案 0 :(得分:0)
阶段是物理执行单位。这是物理执行计划中的一个步骤。阶段是一组并行任务 - 每个分区一个任务(RDD计算作为Spark作业一部分执行的函数的部分结果)。
作业是一个并行计算,由多个任务组成,这些任务是为了响应Spark动作而产生的(例如,保存,收集);您将在驱动程序的日志中看到此术语。
任务是通过序列化Function对象从驱动程序发送到执行程序的命令。执行程序反序列化命令(这是可能的,因为它已经加载了你的jar),并在分区上执行它。
有关它们如何运作的更多信息,请访问此链接。 https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-DAGScheduler-Stage.html