我有一个场景,我的kafka消息(来自同一主题)流经单个扩展管道,最后写入HDFS和MongoDB。我的HDFS卡夫卡消费者将按小时运行一次(微批次)。因此,我需要根据流来源来自哪个消费者(HDFS的消费者或Mongo DB的消费者),将流文件路由到putHDFS和putMongo的最佳方法。
或者请提出是否还有其他方法可以通过Nifi实现微批次。
谢谢
答案 0 :(得分:0)
您可以将Nifi设置为对上传数据的处理器使用Scheduling Strategy。
我想您希望Kafka使用者始终读取数据,在NiFi中建立FlowFiles的积压,然后在较少的频率下运行看跌期权。
这类似于Kafka Connect在其HDFS连接器上的运行方式