应用错误收集

我正在使用火花流检查指向机制并从Kafka读取数据。我申请的窗口持续时间为2小时，滑动间隔为15分钟。

所以，我的批次按以下间隔运行......

9时45分
10:00
10:15
10:30
等

当我的作业重新启动并从检查点恢复时，它会对每个15分钟的作业执行两次重新分区步骤，直到2小时的窗口完成。然后重新分区只发生一次。

例如 - 当工作在16:15恢复时，它会重新分配16:15 Kafka流和14:15 Kafka流。此外，所有其他中间阶段的计算时间为16:15。我正在使用具有反函数的reduceByKeyAndWindow。现在，在2小时窗口完成18:15之后，重新分区仅发生一次。似乎检查点没有RDD存储超过2小时这是我的窗口持续时间。因此，我的工作比平时花费更多的时间。

是否有方法或某些配置参数可以帮助避免重新分区两次？

谢谢！ Kundan

ReduceByKeyAndWindow在从检查点

0 个答案: