从RDBMS批量导入到Hadoop

时间:2014-06-23 06:37:10

标签: hadoop rdbms sqoop

我有一个1petabyte的数据存储在Oracle中,我想把这些数据放在hadoop中。什么应该是明智的方法?是否可以使用Sqoop?如果没有那么应该使用什么方法或工具来进行这样的批量加载

2 个答案:

答案 0 :(得分:0)

Sqoop是一个不错的选择,虽然我不确定它是否支持Oracle的批量操作(与JDBC select查询相反)。

问题是Sqoop会尝试将此作为单个操作(尽管可能有多个进程),并且使用这些数据,您可能希望进行更多零碎和容错的导入。

之后您打算如何处理数据?您想以什么格式存储数据? Sqoop还有其他优点,比如直接导入Hive表。

答案 1 :(得分:0)

Sqoop支持可用作

的批量操作
  sqoop import --connnect <connect-str> --table foo --direct --target-dir /dest

  --direct flag controls the bulk behaviour

但是对于你的用例,你可以使用--incremental import来逐步加载那个巨大的表

快速浏览一下sqoop用户指南可以让你运行

http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html