Pivotal greenplum - 与talend的gpload问题

时间:2017-02-26 08:30:20

标签: linux greenplum hawq

当我尝试从talend etl server运行gpload进程时。我需要先配置tgreenpluGPload组件。配置到组件时,它正在寻找远程Greenplum服务器文件而不是基于本地窗口的talend ETL文件。

ENV详细信息

Talend服务器基于 - windows server 2012

Greenplum Cluster基于 - centos 7

主要原因: Greenplum数据库服务器(Linux)远程到ETL talend服务器(窗口)。因此,当我从窗口服务器运行作业时,greenplum数据库服务器是远程的。此外,我无法配置组件tgreenplumGPload。

截图tgreenplumGPload设置:

Basic setting

Advanced setting

更多细节: 1)gpfdist程序在Greenplum主控主机上运行。

[gpadmin@mdw ~]$ ps -A | grep gpfdist
20071 pts/0    00:00:00 gpfdist
[gpadmin@mdw ~]$

2)从gpdb命令行检查合并操作 - 以下过程在greenplum服务器中运行。

[gpadmin@mdw ~]$ gpload -f gpload.yml
2017-02-25 20:20:48|INFO|gpload session started 2017-02-25 20:20:48
2017-02-25 20:20:48|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/demo/gp_RevenueReport_stg0.txt" -t 30
2017-02-25 20:20:48|INFO|running time: 0.20 seconds
2017-02-25 20:20:48|INFO|rows Inserted          = 0
2017-02-25 20:20:48|INFO|rows Updated           = 3
2017-02-25 20:20:48|INFO|data formatting errors = 0
2017-02-25 20:20:48|INFO|gpload succeeded

Q1: 如何在Linux上设置共享文件夹以供Windows访问。因此,我们可以在tgreenplumGPload设置中使用。或者有没有其他方法可以做到这一点。

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:1)

gpfdist将在ETL服务器上运行,而不是在主控主机上运行。

您必须将ETL服务器ip和名称添加到Greenplum群集中所有节点上的/ etc / hosts文件中。然后,您需要确保ETL服务器可以直接与Greenplum专用网络中的段主机通信。这需要将Greenplum使用的10GB私有交换机连接到10GB LAN并创建VLAN以便您可以访问节点,或者您可以从ETL服务器运行10GB电缆以打开10GB交换机的端口并为其分配IP地址不会与现有主机发生冲突。