使用AWS Glue和数据管道的ETL架构

时间:2018-01-16 03:56:22

标签: amazon-web-services amazon-s3 etl amazon-data-pipeline aws-glue

我正在尝试决定是否将ET Glue或Amazon Data Pipeline用于我们的ETL。我需要逐步将几个表复制到Redshift。几乎所有表都需要复制而不进行转换。一个表需要使用Spark完成转换。

根据我对这两项服务的理解,最好的解决方案是使用两者的组合。 Data Pipeline可以将所有内容复制到S3。从那里,如果不需要转换,Data Pipeline可以使用Redshift COPY将数据移动到Redshift。在需要转换的地方,胶水作业可以应用转换并将数据复制到Redshift。

这是一个明智的策略还是我误解了这些服务的应用?

1 个答案:

答案 0 :(得分:0)

我猜它已经过了项目截止日期了,但是对于那些正在看这个项目的人来说:

仅使用AWS Glue。您可以将Redshift定义为 source target connectors,这意味着您可以从中读取并转储到其中。但是,在执行此操作之前,您需要使用Crawler创建特定于Glue的架构。

所有这些操作也只能通过带有SqlActivity(s)的数据流水线来完成,尽管设置所有内容可能会花费更长的时间,而并没有那么便宜。

保证金:老实说,我惊讶地发现AWS仅专注于大数据解决方案,却没有为小型/中型/大型数据集提供合适的工具。胶水太过分了,数据管道使用起来很麻烦/很糟糕。应该有一个简单的SQL型Lambda!