AWS S3 ETL工具选项

时间:2018-03-22 23:15:27

标签: amazon-s3 aws-glue

尝试了解我将用于安排和运行作业以将数据移入S3的内容,在其上运行脚本并在之后将其移至s3。

我的要求是能够从API中提取,也可以直接从数据库中提取。要摄取的某些格式是XML,而其他格式可能是平面文件。原始文件需要连接和转换,并转换为可以用。生成图形的格式。

什么是AWS胶水就像ETL工具一样?我的具体问题是,您是否可以看到完成的管道在创建后以图形视图显示数据源和处理部件?

我使用过Azure数据工厂 - 它有一个图形用户界面来查看和监控我觉得非常有用的管道。只是想知道AWS胶水是否有类似的东西。

如果没有 - AWS S3上的Nifi会是一个很好的方法吗?

由于

2 个答案:

答案 0 :(得分:1)

如果您正在寻找最佳的GUI,我建议您使用NiFi。它通常与S3一起使用,并具有许多其他数据源的开箱即用的连接器。如果您想在AWS云之外进行操作,它将变得更加有趣。

话虽这么说,我认为胶水也可以完成工作。

在有大量AWS占用空间时运行Data Factory感觉就像是一种反模式。

全面披露:尚未与Glue / Data Factory合作,也没有为Niera背后的推动力Cloudera工作

答案 1 :(得分:1)

我目前正在使用AWS Glue将数据库中的数据提取到s3中,对其进行处理并将其保存回Redshift / S3或通过API发送给我的客户端。 AWS Glue GUI并不是很好,您不会看到流程图,有时您将需要使用其他工具(例如步进功能,气流)来协调您的工作。另外,我的大部分工作都必须使用PySpark,因为AWS Glue方法太有限了。 与监视相关,您可以查看是否存在错误,作业消耗了多少CPU和内存,读/写s3字节。如果您需要其他信息,则需要使用记录器或打印以将其发送到日志。