火花流比较两个批次和过滤数据

时间:2017-06-07 01:38:18

标签: apache-spark streaming

我想使用火花流比较两个批次和过滤数据

每5秒一批,

第一批:

key     type
aaa     0
aaa     1
bbb     0
ccc     0

第二批:

key     type
aaa     1
bbb     1
ddd     0

当火花流处理第二批时,与第一批比较,然后过滤结果:

key     type
ccc     0

两个相邻的批次,最后一批的数据(类型为0)必须是(前一批中的类型为1)和当前批次,如下所示:

key     type
aaa     0
aaa     1

然后第三批:

key     type
ddd     1
eee     0

过滤结果为空

如何使用Spark Streaming执行此操作?

由于

1 个答案:

答案 0 :(得分:0)

最后,我使用变量来保存我的批处理数据,如下所示:

Config.groovy

这个操作必须在驱动程序上。