rdd分区的spark流中的任务执行顺序,属于两个不同的DStream

时间:2016-07-04 10:18:53

标签: apache-kafka spark-streaming

我正在运行一个火花流媒体应用程序。

在时间t1考虑Dstream D1已创建且内部dstream保持5 RDD(D1R1,D1R2,D1R3,D1R4,D1R5)和evry RDD 保持5个分区(对于D1R1的ex分区命名为D1R1P1,D1R1P2,D1R1P3,D1R1P4,D1R1P5)。

根据我的理解,RDD分区和计算构成了一个火花任务。

让D1R1P1对应的名称任务为D1R1P1T1。

类似地,在时间t2,Dstream D2被创建并且内部dstream保持5个RDD(D2R1,D2R2,D2R3,D2R4,D2R5)和evry RDD 保持5分区(对于D2R1的ex分区命名为D2R1P1,D2R1P2,D2R1P3,D2R1P4,D2R1P5)。

让相同计算的D2R1P1对应的名称任务为D2R1P1T1。

将确保任务' D1R1P1T1'在执行任务之前完成&#;; D2R1P1T1'在所有场景中(正常运行 没有任何故障,任务失败或节点故障)。

cosider spark streamig正在使用接收器更少的方法(Kafka直接方法)。

0 个答案:

没有答案