Spark结构化流:消耗每个微批处理中来自Kafka主题的所有数据

时间:2019-05-03 12:41:19

标签: apache-spark apache-kafka spark-structured-streaming

我不知道我是否在问自己解决问题的方法是否错误。

我的想法是我必须从Kafka消费两个主题的两个数据源。其中之一,每个微批处理都必须携带其所有内容。一个例子可能是我每10分钟进行一次微批处理,而话题随着Kafka本人添加的更新而增长。如果在第一个瞬间从0到10,消耗了“ A”和“ B”,而在下一个瞬间,从10到20,则输入了“ C”,并且主题具有“ A”,“ B”和“ C”数据,我想使用“ A”,“ B”和“ C”。目前,Spark结构返回了

  

第0批:“ A”和“ B”

     

第1批:“ C”

有什么想法吗?

谢谢您的时间。问候

0 个答案:

没有答案