Question

我有一个1petabyte的数据存储在Oracle中，我想把这些数据放在hadoop中。什么应该是明智的方法？是否可以使用Sqoop？如果没有那么应该使用什么方法或工具来进行这样的批量加载

Answer 1

Sqoop是一个不错的选择，虽然我不确定它是否支持Oracle的批量操作（与JDBC select查询相反）。

问题是Sqoop会尝试将此作为单个操作（尽管可能有多个进程），并且使用这些数据，您可能希望进行更多零碎和容错的导入。

之后您打算如何处理数据？您想以什么格式存储数据？ Sqoop还有其他优点，比如直接导入Hive表。

Answer 2

Sqoop支持可用作

的批量操作

  sqoop import --connnect <connect-str> --table foo --direct --target-dir /dest

  --direct flag controls the bulk behaviour

但是对于你的用例，你可以使用--incremental import来逐步加载那个巨大的表

快速浏览一下sqoop用户指南可以让你运行