转换任务数据流

时间:2019-12-19 18:47:29

标签: apache-spark

经过一些Web研究之后,我仍然对Apache Spark任务在数据的一个分区上完成其转换任务时到底会发生什么感到困惑。我知道转换任务是一个内存操作,并创建了一个新的RDD,但是此RDD存储在哪里? 毕竟,当任务完成时,内存会被释放,因此生成的RDD必须保留在某个地方,对吗?毕竟,它必须传递到下一个任务或阶段。 您能给我指出一些文件吗?

1 个答案:

答案 0 :(得分:0)

任务只能属于一个阶段,并且只能在一个分区上进行操作。

一个阶段中的所有任务必须先完成,然后才能开始后续阶段。

您可以查看下面的链接以获取更多详细信息。

https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-scheduler-Task.html