我在两个流之间使用窗口连接,例如7天的窗口。
在初始加载时,DB中的所有记录(通过kafka connect source连接器)都将加载到流中。这样看来,所有记录都将在开始的前7天结束在窗口状态存储中,因为生产者/嵌套的时间戳都是当前时间,而消息值中可能包含字段(例如create_time)。
是否有建议的方法来平衡初始负载与联接的Windows?
答案 0 :(得分:0)
好吧,问题是您想将哪些记录彼此关联?以及源连接器设置为记录时间戳的时间戳(可能还取决于主题配置[log.]message.timestamp.type
。
根据TimestampExtractor
返回的值执行连接。默认情况下,这是记录时间戳。如果要基于其他时间戳记进行联接,则可以使用自定义的时间戳提取器。
如果要获取处理时间的语义,则可能需要使用WallclockTimestampExtractor
。