从mysql到HDFS或Hive表的数据实时更新(CDC方法)

时间:2019-05-29 06:15:16

标签: mysql hadoop hive apache-kafka real-time

我已经在RHEL 7服务器中安装了CDH 5.16,并分别安装了kafka。 我试图实时将数据从mysql加载到HDFSHive表中(CDC方法)。也就是说,如果在mysql table中更新或添加了某些数据,则应立即将其反映在HDFSHive表中。

我想出的方法:

使用kafka-connect连接到mysql服务器并将表数据推送到kafka主题    并在spark-stream中编写消费者代码,该代码从主题中读取数据    并将其存储在HDFS中。    这种方法的一个问题是,这些文件之上的配置单元表应    定期刷新以反映更新。

我还知道了HDP 3.1中的Kafka-Hive集成。不幸的是,我正在使用Hadoop 2.6.0。所以不能利用此功能。

还有其他更好的方法吗?

我正在使用Hadoop 2.6.0CDH 5.16.1

0 个答案:

没有答案