我想使用火花流比较两个批次和过滤数据
每5秒一批,
第一批:
key type
aaa 0
aaa 1
bbb 0
ccc 0
第二批:
key type
aaa 1
bbb 1
ddd 0
当火花流处理第二批时,与第一批比较,然后过滤结果:
key type
ccc 0
两个相邻的批次,最后一批的数据(类型为0)必须是(前一批中的类型为1)和当前批次,如下所示:
key type
aaa 0
aaa 1
然后第三批:
key type
ddd 1
eee 0
过滤结果为空
如何使用Spark Streaming执行此操作?
由于
答案 0 :(得分:0)
最后,我使用变量来保存我的批处理数据,如下所示:
Config.groovy
这个操作必须在驱动程序上。