我的用例是使用Apache Hive表记录创建Producer并将其发送到Kafka主题。
我探讨了Confluent Kafka Connect,但到目前为止他们只提供了使用HDFS Connector从Kafka Topic到Hive表的演示。
是否有人使用Kafka连接器从源Hive表到Kafka主题完成了一个? 或者还有其他选项,比如编写我们可以使用的自定义Java API包吗? 我对其他选择很开放。
答案 0 :(得分:0)
你说Kafka HDFS Connect只是一个接收器而不是Kafka的来源是对的。
就个人而言,我会完全跳过Hive,并从HDFS读取。
您可以使用纯Java来执行此操作,或者您可以使用Spark / Flink与这些Kafka库集成,或者您可以尝试使用更多可视化工具(如Apache NiFi或Streamsets)来提取HDFS数据并将其发送到Kafka。
通常,HDFS不是Kafka数据的来源,无论如何,从我所看到的。如果你需要解决问题,Spark似乎是最常用的工具。写入Kafka主题是一个实现细节。