为Kafka主题创建Hive表生成器

时间:2018-02-16 22:45:25

标签: hadoop hive apache-kafka hdfs apache-kafka-connect

我的用例是使用Apache Hive表记录创建Producer并将其发送到Kafka主题。

我探讨了Confluent Kafka Connect,但到目前为止他们只提供了使用HDFS Connector从Kafka Topic到Hive表的演示。

是否有人使用Kafka连接器从源Hive表到Kafka主题完成了一个? 或者还有其他选项,比如编写我们可以使用的自定义Java API包吗? 我对其他选择很开放。

1 个答案:

答案 0 :(得分:0)

你说Kafka HDFS Connect只是一个接收器而不是Kafka的来源是对的。

就个人而言,我会完全跳过Hive,并从HDFS读取。

您可以使用纯Java来执行此操作,或者您可以使用Spark / Flink与这些Kafka库集成,或者您可以尝试使用更多可视化工具(如Apache NiFi或Streamsets)来提取HDFS数据并将其发送到Kafka。

通常,HDFS不是Kafka数据的来源,无论如何,从我所看到的。如果你需要解决问题,Spark似乎是最常用的工具。写入Kafka主题是一个实现细节。