Kafka与HDFS同步进行数据转换

时间:2017-05-31 07:26:18

标签: hdfs kafka-consumer-api apache-kafka-connect

我是kafka的新手,我们有以下要求:

  

1)每天将数据从Kafka同步到HDFS,由Kafka集群中存储的JSON有效负载中的特定密钥进行分区。
  2)JSON有效载荷需要分成两个不同的文件

想知道是否可以使用HDFS kafka连接器实现这一目标?看到一些文档,我想我可以轻松地#1工作但是无法理解我的第二个要求是否有任何开箱即用的东西。 任何有关如何实现这一目标的建议都将受到高度赞赏。 提前谢谢。

1 个答案:

答案 0 :(得分:0)

查看邮件转换,看看它们是否适用于您的用例https://kafka.apache.org/documentation/#connect_transforms。基本上我正在设想从同一主题读取2个不同的hdfs连接器实例,并使用像ExtractField这样的人从每个实例的有效负载中提取你想要的内容,然后写入两个不同的hdfs位置。