我有一个1petabyte的数据存储在Oracle中,我想把这些数据放在hadoop中。什么应该是明智的方法?是否可以使用Sqoop?如果没有那么应该使用什么方法或工具来进行这样的批量加载
答案 0 :(得分:0)
Sqoop是一个不错的选择,虽然我不确定它是否支持Oracle的批量操作(与JDBC select查询相反)。
问题是Sqoop会尝试将此作为单个操作(尽管可能有多个进程),并且使用这些数据,您可能希望进行更多零碎和容错的导入。
之后您打算如何处理数据?您想以什么格式存储数据? Sqoop还有其他优点,比如直接导入Hive表。
答案 1 :(得分:0)
Sqoop支持可用作
的批量操作 sqoop import --connnect <connect-str> --table foo --direct --target-dir /dest
--direct flag controls the bulk behaviour
但是对于你的用例,你可以使用--incremental import来逐步加载那个巨大的表
快速浏览一下sqoop用户指南可以让你运行