我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,希望将Hadoop数据放入greenplum。
请提出建议流程。
问题:
我是否需要在基于Hadoop的Linux vm上安装gpload实用程序?
然后,我必须定期安排基于合并的gpload脚本吗?
是否可以通过在greenplum vm中运行gpload来摄取Hadoop文件?
输入gpload.yml
VERSION: 1.0.0.1
DATABASE: test
USER: gpadmin
HOST: gpdbhostname
PORT: 5432
GPLOAD:
INPUT:
- SOURCE:
LOCAL_HOSTNAME:
- gpdbhostname
PORT: 8080
FILE:
- /home/gpadmin/demo/input_table.txt
- COLUMNS:
- id: bigint
- time: timestamp
- FORMAT: text
- DELIMITER: ';'
- NULL_AS: ''
OUTPUT:
- TABLE: output_table
- MODE: merge
- MATCH_COLUMNS:
- id
- UPDATE_COLUMNS:
- time
~
在这种情况下,如果我想通过gpload merge脚本将源hdfs csv文件写入greenplum常规表,那将是我的gpload.yml。