csv数据从远程unix服务器加载到另一个远程服务器postgres

时间:2016-08-03 13:59:47

标签: csv remote-access talend greenplum

我有一个位于远程unix服务器上的csv文件。我需要将数据加载到postgres db(greenplum)中,该数据库当前位于另一台远程服务器上。

目前,我正在使用winscp将csv拉入我的本地驱动器,然后使用带有本地副本的pgadmin将其加载到greenplum remote中。

这似乎是一种将数据拉入本地机器然后将其放入绿灯的迂回方法。这需要很长时间(> 100小时)

我认为必须有一种方法可以将远程csv批量加载到远程greenplum db而无需本地干预。有没有人有这种数据迁移的经验?我正在为ETL使用talend。

谢谢!

1 个答案:

答案 0 :(得分:2)

是的,有一种批量加载方式可以将数据从远程服务器加载到Greenplum。它也明显更快。

您的Talend服务器需要联网,以便它可以与群集中的段主机通信。以下是有关如何配置网络的指南:http://gpdb.docs.pivotal.io/4380/admin_guide/intro/about_loading.html

然后你可以使用" gpload"加载数据。这是一个实用程序,可以自动执行启动gpfdist进程,创建外部表和为您执行INSERT语句的任务。关于gpload的文档:http://gpdb.docs.pivotal.io/4380/utility_guide/admin_utilities/gpload.html#topic1

最后,Talend是Pivotal的合作伙伴,他们有很多关于如何使用他们的工具将数据加载到Greenplum的文档。它利用gpfdist将数据并行加载到数据库,就像gpload一样。