如何在Apache Flink中有条件地处理流数据

时间:2020-07-22 07:41:41

标签: apache-flink flink-streaming

我正在使用Flink使用Java开发我的流式作业。

就我而言,有两个数据源:A和B。

A不断生成布尔数据:true或false。

我正在努力实现这样的目标:

if get false from A
    get data from B and do some process
else
    do nothing

如何编码我的流媒体作业?

1 个答案:

答案 0 :(得分:1)

Flink在推模型上起作用,而不在拉模型上起作用。因此,您不必“从B获取数据”,而是只要数据从B到达就调用您的运算符。假设您正在使用广播流作为数据源A,那么您可以忽略(丢弃)来自B的数据,或缓冲并从中获取真值时进行处理(但是缓冲状态可能会很困难,具体取决于等待A发出真信号时可能收到的数据量)。

请注意,如果B是某种队列系统(例如Kafka),则可以将其建模为A中的一个简单的单输入运算符,其中您的运算符直接使用Kafka使用者从Kafka主题中提取数据。显然需要更多工作,但是可能的解决方案。您想要将当前偏移量保存为状态(类似于Flink Kafka源代码)。运算符的并行性与Kafka等分区的数量等相比,还会带来额外的复杂性。