如何将数据从PostgreSQL导入Hadoop?

时间:2015-01-30 16:07:08

标签: postgresql hadoop gson

我只是Hadoop的初学者,我的一所大学要求我帮助将一些PostgreSQL表迁移到Hadoop。由于我对PostgreSQL没有太多经验(虽然我知道数据库),但我不确定这种迁移的最佳方式是什么。我的一个想法是将表导出为gson数据,然后从Hadoop处理它们,如下例所示:http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform。有没有更好的方法将数据(表格和数据库)从PostgreSQL导入Hadoop?

2 个答案:

答案 0 :(得分:4)

Sqoop(http://sqoop.apache.org/)是为此精确制作的工具。浏览文档,sqoop提供了传输数据的最佳和最简单的方法。

答案 1 :(得分:1)

使用以下命令。它对我有用。

sqoop import --driver = org.postgresql.Driver --connect jdbc:postgresql:// localhost / your_db --username you_user --password your_password --table employee --target-dir / sqoop_data -m 1