Question

我是卡夫卡的初学者。试图将数据从kafka写入hdfs。在任何地方都没有记录如何使用Confluent的kafka-connect-hdfs Java API。任何链接或代码段都会对我有所帮助。提前谢谢。

Answer 1

您不需要使用Java API。可以从命令行或REST API使用KafkaConnect ...即使您从Java触发连接器，REST API仍然可以工作。

一些文档可以帮助您入门：

首先，KafkaConnect快速入门，只是为了确保您的系统在尝试执行高级操作之前处于良好状态： http://docs.confluent.io/3.0.0/connect/intro.html#quickstart

如果您是Kafka的新手，甚至可以在Kafka快速入门时提前开始： http://docs.confluent.io/3.0.0/quickstart.html

一旦独立更多工作，尝试切换到分布式模式并检查REST API： http://docs.confluent.io/3.0.0/connect/userguide.html#rest-interface

希望这对你的方式有所帮助。

Answer 2

您可以使用Kafka的Producer Java API写入Kafka主题。

kafka-connect-hdfs将从主题中获取消息并将其放入HDFS中。这不需要Java代码。

您运行它已在kafka-connect-hdfs快速入门中显示：

$ ./bin/connect-standalone etc/schema-registry/connect-avro-standalone.properties \
etc/kafka-connect-hdfs/quickstart-hdfs.properties

目前，kafka-connect-hdfs仅支持使用Kafka架构注册表注册的Avro数据格式的主题。