ReduceByKeyAndWindow在从检查点

时间:2015-11-14 15:16:36

标签: apache-spark spark-streaming

我正在使用火花流检查指向机制并从Kafka读取数据。我申请的窗口持续时间为2小时,滑动间隔为15分钟。

所以,我的批次按以下间隔运行......

  • 9时45分
  • 10:00
  • 10:15
  • 10:30

当我的作业重新启动并从检查点恢复时,它会对每个15分钟的作业执行两次重新分区步骤,直到2小时的窗口完成。然后重新分区只发生一次。

例如 - 当工作在16:15恢复时,它会重新分配16:15 Kafka流和14:15 Kafka流。此外,所有其他中间阶段的计算时间为16:15。我正在使用具有反函数的reduceByKeyAndWindow。现在,在2小时窗口完成18:15之后,重新分区仅发生一次。似乎检查点没有RDD存储超过2小时这是我的窗口持续时间。因此,我的工作比平时花费更多的时间。

是否有方法或某些配置参数可以帮助避免重新分区两次?

Attached the DAG Visualisation showing 2 repartitions

谢谢! Kundan

0 个答案:

没有答案