如何使用spring-xd批处理作业将数据从kafka提取到hdfs?我想要一个批处理作业,计划一天运行一次。如何在kafka中跟踪偏移?
答案 0 :(得分:1)
我认为流设置kafka | hdfs
无法帮助您,因为您希望将其作为批处理作业运行,以便您可以作为批处理作业进行编排。
在这种情况下,开箱即用的XD批处理作业模块可以运行kafka - > hdfs还没有。您可以实现自定义批处理作业模块。
为了阅读kafka信息,你需要一个ItemReader
实现来读取Kafka Broker的Kafka消息。请参阅AMQPItemReader中的类似方法:
关注spring-integration-kafka将有助于Kafka具体实现:https://github.com/spring-projects/spring-integration-kafka
要将数据写入HDFS,XD已经有org.springframework.xd.batch.item.hadoop.HdfsTextItemWriter
。
任何写入HDFS的现有XD批处理作业模块都可以帮助您实现此目的。欢迎您开放JIRA,欢迎您的贡献。