可以使用Apache Spark代替Sqoop

时间:2019-07-31 21:49:49

标签: apache-spark apache-spark-sql sqoop sqoop2

我尝试将spark与JDBC连接连接,以从MySQL / Teradata或类似的RDBMS获取数据,并且能够分析数据。

可以使用spark将数据存储到HDFS吗? 火花性能是否有可能 Sqoop的活动。

正在寻找有价值的答案和解释。

1 个答案:

答案 0 :(得分:0)

关于SqoopSpark的两件事。主要区别在于Sqoop将从您的RDMS读取数据,无论您拥有什么,都无需担心表的配置方式。

与使用JDBC连接的Spark相比,您需要如何加载数据有些不同。如果您的数据库没有数字ID或时间戳记之类的列,Spark会将所有数据加载到一个分区中。然后将尝试处理并保存。如果您将一列用作分区,则Spark有时甚至可能比Sqoop还要快。

我建议您阅读此文档。enter link description here

结论是,如果您要进行简单的导出并且需要每天进行而无需任何转换,那么我建议Sqoop使用起来要简单,并且不会对数据库造成太大的影响。 如果,您的表已经准备就绪,除了Sqoop之外,使用Spark可以很好地工作