Kafka使用自定义的TimestampExtractor来流化窗口

时间:2018-10-11 11:30:28

标签: java apache-kafka apache-kafka-streams stream-processing

我试图创建一个Kafka Streams应用程序,试图在一个时间窗口内计算每个平台的唯一设备。

事件类别

public class Event {
    private String eventId;
    private String deviceId;
    private String platform;
    private ZonedDateTime createdAt;
}

我需要时间窗口尊重事件的createdAt,因此我编写了一个TimestampExtractor实现,如下所示:

public class EventTimestampExtractor implements TimestampExtractor {
    @Override
    public long extract(final ConsumerRecord<Object, Object> record, final long previousTimestamp) {
        final Event event = (Event) record.value();
        final ZonedDateTime eventCreationTime = event.getCreatedAt();
        final long timestamp = eventCreationTime.toEpochSecond();

        log.trace("Event ({}) yielded timestamp: {}", event.getEventId(), timestamp);

        return timestamp;
    }
}

最后,这是我的流式应用程序代码:

final KStream<String, Event> eventStream = builder.stream("events_ingestion");

eventStream
    .selectKey((key, event) -> {
        final String platform = event.getPlatform();
        final String deviceId = event.getDeviceId());

        return String.join("::", platform, deviceId);
    })
    .groupByKey()
    .windowedBy(TimeWindows.of(TimeUnit.MINUTES.toMillis(15)))
    .count(Materialized.as(COUNT_STORE));

当我将事件推送到event_ingestion主题时,可以看到时间戳记已记录到应用程序日志中,并且数据正在写入计数存储区。

当我遍历计数存储区时,会看到以下内容:

Key: [ANDROID::1@1539000000/1539900000], Value: 2

尽管我的时间窗口是15分钟,但关键跨度是10天。如果我从流配置中删除我的TimestampExtractor实现(因此返回到处理时间),则该键将按预期跨越15分钟:

Key: [ANDROID::1@1539256500000/1539257400000], Value: 1

我在这里做错了什么?有什么想法吗?

1 个答案:

答案 0 :(得分:1)

TimestampExtractor使用纪元毫秒值作为窗口。您正在计算“秒”,这会将消息放入错误的时间窗口。