使用Talend将CSV数据直接上传到Amazon Redshift

时间:2018-02-16 09:57:15

标签: amazon-web-services amazon-redshift talend

是否可以直接将数据上传到Amazon Redshift而无需通过Amazon S3(使用Talend)?

2 个答案:

答案 0 :(得分:0)

可以使用talend连接器为postgres执行此操作,但结果确实非常慢(可能是每行数据的秒数)。 你真的需要

  1. 拆分大型csv文件,例如每个10MB(没有固定号码)
  2. gzip每个csv文件
  3. 上传到s3
  4. 运行redshift copy命令
  5. 如果需要处理新数据(upsert,请在redshift上运行一些sql 例如)

答案 1 :(得分:0)

可以使用INSERT查询,但效率不高,速度非常慢,因此不建议使用。{p> Redshift专为处理和管理批量加载而构建。

使用COPY命令将大文件分割成较小的部分后,将数据加载到Redshift中,使用multi-part file upload到S3,然后使用COPY命令将数据从S3加载到Redshift,并行({{ 3}}),是将数据加载到Redshift中的最佳和最快的方法。