如何基于flink流完成分区触发气流作业?

时间:2019-01-11 09:42:12

标签: apache-flink airflow flink-streaming lambda-architecture

我有一个flink流作业,该作业从Kafka读取并写入文件系统中的适当分区。例如,将作业配置为使用存储在/ data / date = $ {date} / hour = $ {hour}的存储分区。

如何检测该分区已准备好使用,以便相应的气流管道可以在该小时的顶部进行一些批处理?

1 个答案:

答案 0 :(得分:0)

您可以查看ContinuousFileMonitoringSource的实现,以了解它如何监视文件系统。然后执行与David Anderson在另一个问题中建议的类似操作,重新创建自定义ProcessFunction。