我不知道我是否在问自己解决问题的方法是否错误。
我的想法是我必须从Kafka消费两个主题的两个数据源。其中之一,每个微批处理都必须携带其所有内容。一个例子可能是我每10分钟进行一次微批处理,而话题随着Kafka本人添加的更新而增长。如果在第一个瞬间从0到10,消耗了“ A”和“ B”,而在下一个瞬间,从10到20,则输入了“ C”,并且主题具有“ A”,“ B”和“ C”数据,我想使用“ A”,“ B”和“ C”。目前,Spark结构返回了
第0批:“ A”和“ B”
第1批:“ C”
有什么想法吗?
谢谢您的时间。问候