Question

我们有小型Hadoop和greenplum集群。通过使用gpload merge语句，希望将Hadoop数据放入greenplum。

请提出建议流程。

问题：

我是否需要在基于Hadoop的Linux vm上安装gpload实用程序？
然后，我必须定期安排基于合并的gpload脚本吗？

是否可以通过在greenplum vm中运行gpload来摄取Hadoop文件？

输入gpload.yml

VERSION: 1.0.0.1
DATABASE: test
USER: gpadmin
HOST: gpdbhostname
PORT: 5432
GPLOAD:
   INPUT:
    - SOURCE:
         LOCAL_HOSTNAME:
           - gpdbhostname
         PORT: 8080
         FILE:
           - /home/gpadmin/demo/input_table.txt

    - COLUMNS:
           - id: bigint
           - time: timestamp

    - FORMAT: text
    - DELIMITER: ';'
    - NULL_AS: ''
   OUTPUT:
    - TABLE: output_table
    - MODE: merge
    - MATCH_COLUMNS:
           - id
    - UPDATE_COLUMNS:
           - time
~

在这种情况下，如果我想通过gpload merge脚本将源hdfs csv文件写入greenplum常规表，那将是我的gpload.yml。

gpload实用程序：对于批量数据加载-Source hadoop到greenplum

0 个答案: