Kafka Streams分组依据和串联

时间:2019-04-03 14:01:55

标签: java apache-kafka apache-kafka-streams

我有一个接收记录的Kafka流,并且我想根据特定字段连接消息。

流中的消息如下:

Key: 2099
Payload{
  email: tom@emample.com
  eventCode: 2099
}

预期输出:

key: 2099
Payload{
    emails: tom@example, bill@acme.com, jane@example.com
}

我可以让流正常运行,只是不确定lamda应该包含什么。

这是我到目前为止所做的。我不确定是否应该使用映射,聚合或归约或这些操作的组合。

final StreamsBuilder builder = new StreamsBuilder();
KStream<String, Payload> inputStream = builder.stream(INPUT_TOPIC);

inputStream
        .groupByKey()
        .windowedBy(TimeWindows.of(TimeUnit.MINUTES.toMillis(300000)))

                                  // Not sure what to do here …..

}).to (OUTPUT_TOPIC );

1 个答案:

答案 0 :(得分:4)

可能是这样的

inputStream.groupByKey().windowedBy(TimeWindows.of(TimeUnit.MINUTES.toMillis(300000)))
.aggregate(PayloadAggr::new, new Aggregator<String, Payload, PayloadAggr>() {
        @Override
        public PayloadAggr apply(String key, Payload newValue, PayloadAggr result) {
            result.setKey(key);
            if(result.getEmails()==null){
                result.setEmails(newValue.getEmail());
            }else{
                result.setEmails(result.getEmails() + "," + newValue.getEmail());
            }
            return result;
        }
    }, .../* You serdes and store */}).toStream().to(OUTPUT_TOPIC);