我正在运行一个火花流媒体应用程序。
在时间t1考虑Dstream D1已创建且内部dstream保持5 RDD(D1R1,D1R2,D1R3,D1R4,D1R5)和evry RDD 保持5个分区(对于D1R1的ex分区命名为D1R1P1,D1R1P2,D1R1P3,D1R1P4,D1R1P5)。
根据我的理解,RDD分区和计算构成了一个火花任务。
让D1R1P1对应的名称任务为D1R1P1T1。
类似地,在时间t2,Dstream D2被创建并且内部dstream保持5个RDD(D2R1,D2R2,D2R3,D2R4,D2R5)和evry RDD 保持5分区(对于D2R1的ex分区命名为D2R1P1,D2R1P2,D2R1P3,D2R1P4,D2R1P5)。
让相同计算的D2R1P1对应的名称任务为D2R1P1T1。
将确保任务' D1R1P1T1'在执行任务之前完成&#;; D2R1P1T1'在所有场景中(正常运行 没有任何故障,任务失败或节点故障)。
cosider spark streamig正在使用接收器更少的方法(Kafka直接方法)。