水槽HDFS接收器配置如下:
tier1.sinks.sink1.hdfs.path = /project/mgd/
tier1.sinks.sink1.hdfs.filePrefix = EMA_LOG%Y%m%d
tier1.sinks.sink1.hdfs.rollInterval = 86400
#tier1.sinks.sink1.hdfs.rollInterval = 3600
tier1.sinks.sink1.hdfs.fileSuffix = .json
tier1.sinks.sink1.hdfs.writeFormat = Text
tier1.sinks.sink1.hdfs.rollSize = 0
tier1.sinks.sink1.hdfs.rollCount = 0
tier1.sinks.sink1.hdfs.fileType = DataStream
tier1.sinks.sink1.channel = channel1
每天产生三个HDFS文件(rollInterval = 86400)。这是由于在群集上配置的水槽代理数量或配置为该特定水槽代理的源的Kafka主题分区的数量导致的吗?关于将这些文件合并为一个文件有什么建议吗?
答案 0 :(得分:0)
如果您正在运行三个flume代理,则它将创建3个文件,如果仅需要一个文件,则您只需运行一个flume代理。否则,在创建3个文件后,您需要自己合并这些文件(在flume外部)。