Flume代理在连续发送数据时生成多个.tmp文件

时间:2017-06-19 14:19:26

标签: apache-kafka cloudera flume

我有一个在CDH 5.8.3中运行的水槽代理。如果发送的有效文件超过3个,则在写入hdfs时会创建多个.tmp文件。有一个拦截器在hdfs接收器之前将有效的xmls路由到适当的主题。这个代理人正在使用flafka。拦截器和卡夫卡正常工作。

agent.sinks.hdfs_valid.channel=valid_channel
agent.sinks.hdfs_valid.type=hdfs
agent.sinks.hdfs_valid.writeFormat=Text
agent.sinks.hdfs_valid.hdfs.fileType=DataStream
agent.sinks.hdfs_valid.hdfs.filePrefix=event
agent.sinks.hdfs_valid.hdfs.fileSuffix=.xml
agent.sinks.hdfs_valid.hdfs.path=locationoffile/%{time}
agent.sinks.hdfs_valid.hdfs.idleTimeout=900
agent.sinks.hdfs_valid.hdfs.rollInterval=3600
agent.sinks.hdfs_valid.hdfs.kerberosPrincipal=authentication@example.com
agent.sinks.hdfs_valid.hdfs.kerberosKeytab=locationofkeytab
agent.sinks.hdfs_valid.hdfs.rollSize=0
agent.sinks.hdfs_valid.hdfs.rollCount=0
agent.sinks.hdfs_valid.hdfs.callTimeout=100000

1 个答案:

答案 0 :(得分:0)

好的,非常有趣。我们的Kafka分区设置为20.当水槽消耗时。前10个分区从一个ip消耗,它打开一个.tmp。第二个10个分区正在从另一个ip消耗,它打开第二个.tmp。这似乎是水槽的内部功能。尽管打开了两个.tmp,但所有数据都正确到达。