我是kafka的新手,我们有以下要求:
1)每天将数据从Kafka同步到HDFS,由Kafka集群中存储的JSON有效负载中的特定密钥进行分区。
2)JSON有效载荷需要分成两个不同的文件
想知道是否可以使用HDFS kafka连接器实现这一目标?看到一些文档,我想我可以轻松地#1工作但是无法理解我的第二个要求是否有任何开箱即用的东西。 任何有关如何实现这一目标的建议都将受到高度赞赏。 提前谢谢。
答案 0 :(得分:0)
查看邮件转换,看看它们是否适用于您的用例https://kafka.apache.org/documentation/#connect_transforms。基本上我正在设想从同一主题读取2个不同的hdfs连接器实例,并使用像ExtractField这样的人从每个实例的有效负载中提取你想要的内容,然后写入两个不同的hdfs位置。