应用错误收集

我已经在RHEL 7服务器中安装了CDH 5.16，并分别安装了kafka。我试图实时将数据从mysql加载到HDFS或Hive表中（CDC方法）。也就是说，如果在mysql table中更新或添加了某些数据，则应立即将其反映在HDFS或Hive表中。

我想出的方法：

使用kafka-connect连接到mysql服务器并将表数据推送到kafka主题并在spark-stream中编写消费者代码，该代码从主题中读取数据并将其存储在HDFS中。这种方法的一个问题是，这些文件之上的配置单元表应定期刷新以反映更新。

我还知道了HDP 3.1中的Kafka-Hive集成。不幸的是，我正在使用Hadoop 2.6.0。所以不能利用此功能。

还有其他更好的方法吗？

我正在使用Hadoop 2.6.0和CDH 5.16.1