AWS Glue ETL:将数据传输到S3存储桶

时间:2019-08-11 19:22:38

标签: amazon-web-services amazon-s3 aws-glue

我希望使用AWS Glue ETL将MySQL [RDS]这样的数据库中的数据传输到S3。 我很难做到这一点,文档确实不好。 我在stackoverflow上找到了此链接:

  

Could we use AWS Glue just copy a file from one S3 folder to another S3 folder?

根据该链接的

SO,看来Glue没有将S3存储桶作为数据目标,而可能将其作为数据源。 所以,我希望这是错误的。 但是,如果有人使用ETL工具,则AWS的首要基础之一就是可以将数据与AWS的主要存储形式S3存储桶进行数据传输。

所以希望有人可以提供帮助。

2 个答案:

答案 0 :(得分:0)

您可以将Glue连接添加到RDS实例,然后使用Spark ETL脚本将数据写入S3。

您必须首先使用Glue Crawler爬网数据库表。这将在数​​据目录中创建一个表,该表可在作业中用于将数据传输到S3。如果您不想执行任何转换,则可以直接将UI步骤用于自动生成的ETL脚本。

我还写了一个博客,介绍如何使用AWS Glue将关系数据库迁移到Amazon S3。让我知道它是否可以解决您的查询。

https://ujjwalbhardwaj.me/post/migrate-relational-databases-to-amazon-s3-using-aws-glue

答案 1 :(得分:0)

您尝试过https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-copyrdstos3.html吗?

您可以使用AWS Data Pipeline-它具有用于从RDS完全复制和增量复制到s3的标准模板。