我们将Kafka Streams视为解决飞行比较的一种方法。具体来说,我们有数据以每秒约15,000个事务的顺序到达Kafka主题,我们希望在记录滚动时对记录进行比较操作。记录非常宽(1900列或其左右),但比较操作发生在很少的列(~10-20)。我们的比较窗口大概是一分钟。
场景将是这样的:
我们希望能够读取流,识别消息1,4和6都符合我们的比较标准,然后丢弃消息1和6,同时保留消息4.
我在2016年11月发现了Gouzhang Wang的评论,建议通过Processor API实现这一点。这仍然是目前最好的方法吗?