amazon-web-services - 使用AWS Glue和数据管道的ETL架构

时间：2018-01-16 03:56:22

标签： amazon-web-services amazon-s3 etl amazon-data-pipeline aws-glue

我正在尝试决定是否将ET Glue或Amazon Data Pipeline用于我们的ETL。我需要逐步将几个表复制到Redshift。几乎所有表都需要复制而不进行转换。一个表需要使用Spark完成转换。

根据我对这两项服务的理解，最好的解决方案是使用两者的组合。 Data Pipeline可以将所有内容复制到S3。从那里，如果不需要转换，Data Pipeline可以使用Redshift COPY将数据移动到Redshift。在需要转换的地方，胶水作业可以应用转换并将数据复制到Redshift。

这是一个明智的策略还是我误解了这些服务的应用？

答案 0 :(得分：0)

我猜它已经过了项目截止日期了，但是对于那些正在看这个项目的人来说：

仅使用AWS Glue。您可以将Redshift定义为 source 和 target connectors，这意味着您可以从中读取并转储到其中。但是，在执行此操作之前，您需要使用Crawler创建特定于Glue的架构。

所有这些操作也只能通过带有SqlActivity（s）的数据流水线来完成，尽管设置所有内容可能会花费更长的时间，而并没有那么便宜。

保证金：老实说，我惊讶地发现AWS仅专注于大数据解决方案，却没有为小型/中型/大型数据集提供合适的工具。胶水太过分了，数据管道使用起来很麻烦/很糟糕。应该有一个简单的SQL型Lambda！