我正在使用火花流检查指向机制并从Kafka读取数据。我申请的窗口持续时间为2小时,滑动间隔为15分钟。
所以,我的批次按以下间隔运行......
当我的作业重新启动并从检查点恢复时,它会对每个15分钟的作业执行两次重新分区步骤,直到2小时的窗口完成。然后重新分区只发生一次。
例如 - 当工作在16:15恢复时,它会重新分配16:15 Kafka流和14:15 Kafka流。此外,所有其他中间阶段的计算时间为16:15。我正在使用具有反函数的reduceByKeyAndWindow
。现在,在2小时窗口完成18:15之后,重新分区仅发生一次。似乎检查点没有RDD
存储超过2小时这是我的窗口持续时间。因此,我的工作比平时花费更多的时间。
是否有方法或某些配置参数可以帮助避免重新分区两次?
谢谢! Kundan