Sqoop投机执行

时间:2015-04-22 19:30:17

标签: hadoop sqoop sqoop2

我在Sqoop中有以下问题?

  • 我很好奇我们是否可以为sqoop导入/导出作业设置关闭/开启投机执行。
  • 我们还可以选择在sqoop导入/导出过程中设置减速器数量。根据我的分析,sqoop不需要任何减速器,但不确定我是否正确。请纠正我。
  • 我已经使用了sqoop和mysql,oracle以及除上述之外我们可以使用的其他数据库。

谢谢

2 个答案:

答案 0 :(得分:3)

1)默认情况下,在sqoop中,推测执行是关闭的,因为如果多个映射器运行单个任务,我们会在HDFS中获得重复的数据。因此,要避免这种衰退,它就会消失。

2)sqoop job的reducers数量为0,因为它只是一个运行MAP数据的作业,它将数据转储到HDFS中。我们没有聚合任何东西。

3)你可以使用Postgresql,HSQLDB和mysql,oracle。如何在mysql和Postgre中支持直接导入。

答案 1 :(得分:0)

  1. 默认情况下启用推测执行。它可以独立启用或禁用 用于地图任务和减少任务,在群集范围内或基于每个作业。

  2. [Sqoop的减速剂] [1]:http://i.stack.imgur.com/CH8pb.png

  3. 任何与JDBC兼容的RDBMS,即MySQL,oracle,Postgre