Spark有状态流-添加计数器列

时间:2019-01-23 12:03:56

标签: apache-spark spark-streaming

我有一个Spark Streaming流程,消耗了所有记录 一个Kafka主题,对其进行处理,然后将其发送给生产者,以发布另一个主题。 我想添加一个序列号列,该列可用于标识具有相同键的记录,并且对于该键的每次重复出现都会递增。 例如,如果发送给生产者的输出是

Key, col1, col2, seqnum
A, 67, dog, 1
B, 56, cat, 1
C, 89, fish, 1

然后,如果A在合理的时间间隔内再次出现 Spark将产生以下内容:

A, 67, dog, 2
B, 56, cat, 2

等 我该怎么做?我怀疑这是一种经常发生的模式,但是我没有找到任何示例。

0 个答案:

没有答案