gpfdist vs gpload greenplum

时间:2017-08-09 07:51:40

标签: psql greenplum

我第一次设置greenplum。我正在关注documentation。我想设置从sql到greenplum数据库的连接。目前正在弄清楚实现这一目标的最佳途径是什么。我遇到了gpfdist和gpload。

两者有何不同?由于两者都使用外部表,因此它们都在从属节点上工作,并用于并行加载。那么使用一个优于其他优势是否有优势?

2 个答案:

答案 0 :(得分:0)

回答你的问题"我想设置从sql到greenplum数据库的连接" ... 您所指的SQL数据库是不明确的。

此外,没有可用于将非greenplum数据库连接到greenplum数据库的直接连接驱动程序。

但是,如果您想将数据从Oracle迁移到Greenplum,那么您可以使用Informatica的快速克隆工具。

回答关于gpfdist和gpload的第二部分问题。 GPFDIST是一个文件分布式进程,它在主机系统上运行,并且与许多段并行提供文件。在将外部表初始化为从文件读/写时,您需要指定将为该文件提供哪个进程,在您的情况下,它将是GPFDIST。还有其他过程,如FTP,GPHDFS,HTTP。

GPLOAD是一个包装器实用程序,它通过自动创建gpfdist进程和外部表使您的工作更轻松。

另请注意,GPLOAD只能创建可读的外部表。

答案 1 :(得分:0)

gpfdist n gpload或相同。在gpfdist中,您可以手动执行此操作;而在gpload中,您可以通过减少config(yaml文件)文件中的条目来自动执行活动。 GPLOAD是GPFDIST的包装。因此,当您通过gpload加载数据时,它将仅在内部使用gpfdist。

如果要将数据从任何其他RDBMS加载/迁移到Greenplum,并且正在使用任何ETL或迁移工具,则在启用gpload的情况下,它将使用普通的复制命令以及在加载/迁移时使用(最新版本为现在)当您将数据迁移/加载到Greenplum时,大多数ETL工具和迁移工具都支持gpload功能),它将通过内部使用gpfdist以并行方式加载数据。