从RDBMS导出到Hadoop兼容格式

时间:2016-06-23 20:21:10

标签: hadoop hive sqoop

我需要将大量数据从Oracle数据库移动到Hadoop,而无需连接这两个系统。是否可以通过Sqoop将数据从Oracle直接导出到本地文件系统而无需导入到HDFS。我想导出到ORC,然后将文件通过外部磁盘移动到Hadoop集群。

1 个答案:

答案 0 :(得分:1)

在您的情况下,您不能使用SQOOP。 SQOOP在hadoop中运行,并使用JDBC连接数据库。如果hadoop节点无法与DB服务器连接,则无法使用它。

ORC是Hive使用的一种非常具体的格式,如果可能的话,你需要找到如何使用hive库在hadoop clustes之外创建ORC文件。

根据您的约束,我建议使用DB的转储功能将数据库导出到CSV文件中,压缩文件然后将其复制到HDFS中。

如果您打算使用Hive,则可以 LOAD 将文本文件添加到配置为使用ORC存储数据的表中。