Oracle Hadoop连接器与Sqoop

时间:2016-10-25 07:43:52

标签: hadoop jdbc sqoop

我已经使用Sqoop将数据从Oracle提取到Hadoop并且运行良好。在没有在Sqoop上使用分区的情况下,从Oracle到Hive表只需要4分钟就能完成8600万条记录。任何人都可以提供有关Oracle Hadoop连接器的一些细节,它的性能是否优于Sqoop?

2 个答案:

答案 0 :(得分:0)

Sqoop将利用标准的JDBC连接。 Oracles连接器可与集成到sqoop连接中的fastloader / fastexport类配合使用。它应该比Sqoop更快。

答案 1 :(得分:0)

大多数连接器的性能接近于您在工作流程的最后都有一组MapReduce作业,这将在您的整体性能中发挥主要作用。

Oracle提供了一组用于访问Hive的不同连接器,您可以查看有关标准解决方案的精彩概述,但我怀疑在最后您会看到Sqoop中出现的显着性能差异:

https://docs.oracle.com/cd/E37231_01/doc.20/e36961/start.htm#BDCUG119

Sqoop是一个用于处理来自Hadoop领域的关系数据库的通用工具,它不仅受Oracle的限制。此外,它还与Oozie等其他Hadoop解决方案集成,用于制作复杂的工作流程,这使其成为其他类型连接器的理想选择。

就我个人而言,我更喜欢Sqoop用于Hadoop驱动的导入导出操作和连接器方法来查询Hadoop中的数据。