我正在使用Flink使用Java开发我的流式作业。
就我而言,有两个数据源:A和B。
A不断生成布尔数据:true或false。
我正在努力实现这样的目标:
if get false from A
get data from B and do some process
else
do nothing
如何编码我的流媒体作业?
答案 0 :(得分:1)
Flink在推模型上起作用,而不在拉模型上起作用。因此,您不必“从B获取数据”,而是只要数据从B到达就调用您的运算符。假设您正在使用广播流作为数据源A,那么您可以忽略(丢弃)来自B的数据,或缓冲并从中获取真值时进行处理(但是缓冲状态可能会很困难,具体取决于等待A发出真信号时可能收到的数据量)。
请注意,如果B是某种队列系统(例如Kafka),则可以将其建模为A中的一个简单的单输入运算符,其中您的运算符直接使用Kafka使用者从Kafka主题中提取数据。显然需要更多工作,但是可能的解决方案。您想要将当前偏移量保存为状态(类似于Flink Kafka源代码)。运算符的并行性与Kafka等分区的数量等相比,还会带来额外的复杂性。