我尝试将spark与JDBC连接连接,以从MySQL / Teradata或类似的RDBMS获取数据,并且能够分析数据。
可以使用spark将数据存储到HDFS吗? 火花性能是否有可能 Sqoop的活动。
正在寻找有价值的答案和解释。
答案 0 :(得分:0)
关于Sqoop
和Spark
的两件事。主要区别在于Sqoop将从您的RDMS读取数据,无论您拥有什么,都无需担心表的配置方式。
与使用JDBC连接的Spark相比,您需要如何加载数据有些不同。如果您的数据库没有数字ID或时间戳记之类的列,Spark会将所有数据加载到一个分区中。然后将尝试处理并保存。如果您将一列用作分区,则Spark有时甚至可能比Sqoop还要快。
我建议您阅读此文档。enter link description here
结论是,如果您要进行简单的导出并且需要每天进行而无需任何转换,那么我建议Sqoop使用起来要简单,并且不会对数据库造成太大的影响。 如果,您的表已经准备就绪,除了Sqoop之外,使用Spark可以很好地工作