带有窗口连接的Kafka流数据的初始加载

时间:2019-11-27 16:20:40

标签: apache-kafka apache-kafka-streams apache-kafka-connect

我在两个流之间使用窗口连接,例如7天的窗口。

在初始加载时,DB中的所有记录(通过kafka connect source连接器)都将加载到流中。这样看来,所有记录都将在开始的前7天结束在窗口状态存储中,因为生产者/嵌套的时间戳都是当前时间,而消息值中可能包含字段(例如create_time)。

是否有建议的方法来平衡初始负载与联接的Windows?

1 个答案:

答案 0 :(得分:0)

好吧,问题是您想将哪些记录彼此关联?以及源连接器设置为记录时间戳的时间戳(可能还取决于主题配置[log.]message.timestamp.type

根据TimestampExtractor返回的值执行连接。默认情况下,这是记录时间戳。如果要基于其他时间戳记进行联接,则可以使用自定义的时间戳提取器。

如果要获取处理时间的语义,则可能需要使用WallclockTimestampExtractor