我只是Hadoop的初学者,我的一所大学要求我帮助将一些PostgreSQL表迁移到Hadoop。由于我对PostgreSQL没有太多经验(虽然我知道数据库),但我不确定这种迁移的最佳方式是什么。我的一个想法是将表导出为gson数据,然后从Hadoop处理它们,如下例所示:http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform。有没有更好的方法将数据(表格和数据库)从PostgreSQL导入Hadoop?
答案 0 :(得分:4)
Sqoop(http://sqoop.apache.org/)是为此精确制作的工具。浏览文档,sqoop提供了传输数据的最佳和最简单的方法。
答案 1 :(得分:1)
使用以下命令。它对我有用。
sqoop import --driver = org.postgresql.Driver --connect jdbc:postgresql:// localhost / your_db --username you_user --password your_password --table employee --target-dir / sqoop_data -m 1 >