带Kafka源的Flume HDFS接收器-多个文件?

时间:2019-04-10 06:47:45

标签: apache-kafka hdfs flume

水槽HDFS接收器配置如下:

tier1.sinks.sink1.hdfs.path = /project/mgd/ 
tier1.sinks.sink1.hdfs.filePrefix = EMA_LOG%Y%m%d 
tier1.sinks.sink1.hdfs.rollInterval = 86400 
#tier1.sinks.sink1.hdfs.rollInterval = 3600 
tier1.sinks.sink1.hdfs.fileSuffix = .json 
tier1.sinks.sink1.hdfs.writeFormat = Text 
tier1.sinks.sink1.hdfs.rollSize = 0 
tier1.sinks.sink1.hdfs.rollCount = 0 
tier1.sinks.sink1.hdfs.fileType = DataStream 
tier1.sinks.sink1.channel = channel1 

每天产生三个HDFS文件(rollInterval = 86400)。这是由于在群集上配置的水槽代理数量或配置为该特定水槽代理的源的Kafka主题分区的数量导致的吗?关于将这些文件合并为一个文件有什么建议吗?

1 个答案:

答案 0 :(得分:0)

如果您正在运行三个flume代理,则它将创建3个文件,如果仅需要一个文件,则您只需运行一个flume代理。否则,在创建3个文件后,您需要自己合并这些文件(在flume外部)。