我有两个数据流流入Kafka集群。我想使用Kafka流处理此数据。流生成器在t某个时间启动。
5分钟后,我开始进行Kafka Streams作业,并从最早开始阅读这两个主题(每个主题已经有大约90万条消息)。作业将解析数据并加入两个流。 在中间主题上,我看到所有较早的事件一直持续到联接。但是,并非所有旧事件都从联接中输出。作业开始后,已经在主题上的数据会偶尔出现。新数据按原样通过。
连接的优雅毫秒数设置为50毫秒,但是5分钟或10分钟则没有区别。 我的其他设置:
该联接位于以下窗口中:
JoinWindows.of(Duration.ofMillis(1000))
.grace(Duration.ofMillis(50))
据我了解,这些加入应该在活动时间进行。 是什么导致这些结果被丢弃?