我们在 CDH 6 Hadoop 集群上研究将数据从 Kafka 流式传输到 HDFS(首选:Parquet)文件和 Hive 表的选项。
查看 CDH 6 versions 后,对我来说,似乎没有一个 Confluent Kafka Connect 接收器连接器与我们的环境兼容:虽然 CDH 6 封装了 Hadoop 3.0.0 和 Hive 2.1.1,但连接器需要不同的组合:
我看到的唯一选择是升级到 CDP Private Cloud Base 7.1,其中 Cloudera's HDFS Sink Connector 可用。
我的理解是否正确,我们在没有支持的情况下处于未知水域? 这个用例的最佳实践是什么?选择 NiFi/CFM 还是 Flink?
您在这里看到其他选择吗?