Apache Nifi-消耗Kafka +合并内容+放入HDFS以避免小文件

时间:2018-07-18 13:39:07

标签: apache-nifi hortonworks-dataflow

我在Kafka主题中有大约2000000条消息,我想使用NiFi将这些记录放入HDFS中,因此我将PutHDFS处理器与ConsumeKafka_0_10一起使用,但是它会在HDFS中生成小文件,所以我在推送文件之前使用了合并内容处理器来合并记录。 enter image description here 如果配置需要更改,请提供帮助。对于少量消息,它可以很好地工作,但是当涉及到具有大量数据的主题时,它会为每个记录写入一个文件。

谢谢!

1 个答案:

答案 0 :(得分:3)

“最小条目数”设置为1,这意味着它可以具有从1到“最大条目数”之间的任意值。尝试将其提高到10万。