我是卡夫卡的初学者。试图将数据从kafka写入hdfs。在任何地方都没有记录如何使用Confluent的kafka-connect-hdfs Java API。任何链接或代码段都会对我有所帮助。提前谢谢。
答案 0 :(得分:5)
您不需要使用Java API。可以从命令行或REST API使用KafkaConnect ...即使您从Java触发连接器,REST API仍然可以工作。
一些文档可以帮助您入门:
首先,KafkaConnect快速入门,只是为了确保您的系统在尝试执行高级操作之前处于良好状态: http://docs.confluent.io/3.0.0/connect/intro.html#quickstart
如果您是Kafka的新手,甚至可以在Kafka快速入门时提前开始: http://docs.confluent.io/3.0.0/quickstart.html
一旦独立更多工作,尝试切换到分布式模式并检查REST API: http://docs.confluent.io/3.0.0/connect/userguide.html#rest-interface
然后尝试HDFS连接器。要么从快速入门开始: http://docs.confluent.io/3.0.0/connect/connect-hdfs/docs/hdfs_connector.html#quickstart
或博客教程: http://www.confluent.io/blog/how-to-build-a-scalable-etl-pipeline-with-kafka-connect
希望这对你的方式有所帮助。
答案 1 :(得分:0)
您可以使用Kafka的Producer Java API写入Kafka主题。
kafka-connect-hdfs将从主题中获取消息并将其放入HDFS中。这不需要Java代码。
您运行它已在kafka-connect-hdfs快速入门中显示:
$ ./bin/connect-standalone etc/schema-registry/connect-avro-standalone.properties \
etc/kafka-connect-hdfs/quickstart-hdfs.properties
目前,kafka-connect-hdfs仅支持使用Kafka架构注册表注册的Avro数据格式的主题。