我有一个Spark Streaming流程,消耗了所有记录 一个Kafka主题,对其进行处理,然后将其发送给生产者,以发布另一个主题。 我想添加一个序列号列,该列可用于标识具有相同键的记录,并且对于该键的每次重复出现都会递增。 例如,如果发送给生产者的输出是
Key, col1, col2, seqnum
A, 67, dog, 1
B, 56, cat, 1
C, 89, fish, 1
然后,如果A在合理的时间间隔内再次出现 Spark将产生以下内容:
A, 67, dog, 2
B, 56, cat, 2
等 我该怎么做?我怀疑这是一种经常发生的模式,但是我没有找到任何示例。