在 CDH 6 上从 Kafka 流式传输到 HDFS/Hive

时间:2021-07-29 21:38:21

标签: apache-kafka hdfs apache-kafka-connect cloudera-cdh

我们在 CDH 6 Hadoop 集群上研究将数据从 Kafka 流式传输到 HDFS(首选:Parquet)文件和 Hive 表的选项。

查看 CDH 6 versions 后,对我来说,似乎没有一个 Confluent Kafka Connect 接收器连接器与我们的环境兼容:虽然 CDH 6 封装了 Hadoop 3.0.0 和 Hive 2.1.1,但连接器需要不同的组合:

我看到的唯一选择是升级到 CDP Private Cloud Base 7.1,其中 Cloudera's HDFS Sink Connector 可用。

我的理解是否正确,我们在没有支持的情况下处于未知水域? 这个用例的最佳实践是什么?选择 NiFi/CFM 还是 Flink?

您在这里看到其他选择吗?

0 个答案:

没有答案