应用错误收集

我们将Kafka Streams视为解决飞行比较的一种方法。具体来说，我们有数据以每秒约15,000个事务的顺序到达Kafka主题，我们希望在记录滚动时对记录进行比较操作。记录非常宽（1900列或其左右），但比较操作发生在很少的列（~10-20）。我们的比较窗口大概是一分钟。

场景将是这样的：

我们希望能够读取流，识别消息1,4和6都符合我们的比较标准，然后丢弃消息1和6，同时保留消息4.

我在2016年11月发现了Gouzhang Wang的评论，建议通过Processor API实现这一点。这仍然是目前最好的方法吗？