我们的MySQL和Hadoop平台部署在不同的网络中,Hadoop无法访问MySQL,但MySQL可以连接到Hadoop。
那么,有没有一种工具可以像Sqoop提取数据那样将大数据从RDS推送到HDFS?还是有其他方法可以解决此问题?
感谢您的帮助。
顺便说一下,Hadoop集群通过在两侧部署水槽并连接在一起,在网络中消耗了一个Kafka主题。但是对于批量RDS数据,如何实现呢?
答案 0 :(得分:0)
这里是将大量数据从MySQL移动到Hadoop的另一个选择/解决方案,即Spark JDBC与MySQL数据库的连接以将数据引入Hadoop集群。
使用Sqoop进行数据移动是将数据从RDBMS导入到hadoop集群的旧技术。但是,SparkJDBC解决方案基于内存执行引擎中的Spark,具有可靠的性能记录并且使用可靠。