应用错误收集

时间：2019-07-31 21:49:49

标签： apache-spark apache-spark-sql sqoop sqoop2

我尝试将spark与JDBC连接连接，以从MySQL / Teradata或类似的RDBMS获取数据，并且能够分析数据。

可以使用spark将数据存储到HDFS吗？火花性能是否有可能 Sqoop的活动。

正在寻找有价值的答案和解释。

答案 0 :(得分：0)

关于Sqoop和Spark的两件事。主要区别在于Sqoop将从您的RDMS读取数据，无论您拥有什么，都无需担心表的配置方式。

与使用JDBC连接的Spark相比，您需要如何加载数据有些不同。如果您的数据库没有数字ID或时间戳记之类的列，Spark会将所有数据加载到一个分区中。然后将尝试处理并保存。如果您将一列用作分区，则Spark有时甚至可能比Sqoop还要快。

我建议您阅读此文档。enter link description here

结论是，如果您要进行简单的导出并且需要每天进行而无需任何转换，那么我建议Sqoop使用起来要简单，并且不会对数据库造成太大的影响。如果，您的表已经准备就绪，除了Sqoop之外，使用Spark可以很好地工作