Kafka Streams-通过ID对每个汇总记录在每小时窗口中仅获取一次更新

时间:2019-01-14 06:07:46

标签: apache-kafka apache-kafka-streams

我正在使用kafka流按user_id每小时每小时汇总一次数据,并将汇总后的数据发布到API。 我注意到,对于相同的ID和时间戳,重复的数据具有不同的值,我认为这是对现有记录的更新,但是它将立即如下所示。

 [KTABLE-TOSTREAM-0000000010]: [156@1546686000000/1546689600000], 46319
 [KTABLE-TOSTREAM-0000000010]: [151@1546686000000/1546689600000], 300143
 [KTABLE-TOSTREAM-0000000010]: [151@1546686000000/1546689600000], 300339
 [KTABLE-TOSTREAM-0000000010]: [156@1546686000000/1546689600000], 46340
 [KTABLE-TOSTREAM-0000000010]: [156@1546689600000/1546693200000], 3500

需要做些什么才能使每个id的最新记录如下所示?

 [KTABLE-TOSTREAM-0000000010]: [151@1546686000000/1546689600000], 300339
 [KTABLE-TOSTREAM-0000000010]: [156@1546686000000/1546689600000], 46340

0 个答案:

没有答案