我已经在RHEL 7服务器中安装了CDH 5.16
,并分别安装了kafka
。
我试图实时将数据从mysql
加载到HDFS
或Hive
表中(CDC
方法)。也就是说,如果在mysql table
中更新或添加了某些数据,则应立即将其反映在HDFS
或Hive
表中。
我想出的方法:
使用kafka-connect
连接到mysql
服务器并将表数据推送到kafka
主题
并在spark-stream
中编写消费者代码,该代码从主题中读取数据
并将其存储在HDFS
中。
这种方法的一个问题是,这些文件之上的配置单元表应
定期刷新以反映更新。
我还知道了HDP 3.1中的Kafka-Hive
集成。不幸的是,我正在使用Hadoop 2.6.0
。所以不能利用此功能。
还有其他更好的方法吗?
我正在使用Hadoop 2.6.0
和CDH 5.16.1