Kafka Streams与Kafka Connect for Kafka HBase ETL管道

时间:2019-01-08 00:23:59

标签: apache-kafka hbase apache-kafka-streams apache-kafka-connect

对于ETL作业,我有一个简单的方案:从Kafka主题获取数据并将其放入HBase表。将来,从主题中读取数据后,我将添加对某些逻辑的支持。 我考虑了两种情况:

  • 使用Kafka Streams从主题中读取数据,并通过本地HBased驱动程序进一步写入每条记录
  • 使用Kafka-> HBase connector

我接下来要考虑的选择是

  • 在每次到达Kafka Stream窗口时写入数据是一个好主意吗? -建议降低性能
  • Kafka Hbase连接器仅受第三方开发人员支持,我不确定此解决方案的代码质量以及是否可以为来自主题的数据添加自定义聚合逻辑的选项。

1 个答案:

答案 0 :(得分:3)

我本人一直在尝试搜索KAFKA到HBase的ETL选项,但是到目前为止,我的研究告诉我,在KAFKA流应用程序中进行外部系统交互不是一个好主意(请查看答案{{ 3}}和here)。如果您拥有KAFKA->Transform_message->KAFKA这种用例,那么KAFKA流将非常强大且功能强大,最终,您可以进行KAFKA连接,该连接将从KAFKA主题中获取数据并将其写入接收器。

由于您不想使用第三方KAFKA connect for HBase,一个选择是使用connect API自己编写一些东西,另一种选择是使用KAFKA Consumer Producer API并使用传统方式编写应用程序,轮询消息,写入接收器,提交批处理并继续。