gpload实用程序:对于批量数据加载-Source hadoop到greenplum

时间:2017-06-20 18:59:05

标签: hadoop greenplum

我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,希望将Hadoop数据放入greenplum。

请提出建议流程。

问题:

  1. 我是否需要在基于Hadoop的Linux vm上安装gpload实用程序?

  2. 然后,我必须定期安排基于合并的gpload脚本吗?

  3. 是否可以通过在greenplum vm中运行gpload来摄取Hadoop文件?

    输入gpload.yml

    VERSION: 1.0.0.1
    DATABASE: test
    USER: gpadmin
    HOST: gpdbhostname
    PORT: 5432
    GPLOAD:
       INPUT:
        - SOURCE:
             LOCAL_HOSTNAME:
               - gpdbhostname
             PORT: 8080
             FILE:
               - /home/gpadmin/demo/input_table.txt
    
        - COLUMNS:
               - id: bigint
               - time: timestamp
    
        - FORMAT: text
        - DELIMITER: ';'
        - NULL_AS: ''
       OUTPUT:
        - TABLE: output_table
        - MODE: merge
        - MATCH_COLUMNS:
               - id
        - UPDATE_COLUMNS:
               - time
    ~
    
  4. 在这种情况下,如果我想通过gpload merge脚本将源hdfs csv文件写入greenplum常规表,那将是我的gpload.yml。

0 个答案:

没有答案