我希望使用AWS Glue ETL将MySQL [RDS]这样的数据库中的数据传输到S3。 我很难做到这一点,文档确实不好。 我在stackoverflow上找到了此链接:
根据该链接的Could we use AWS Glue just copy a file from one S3 folder to another S3 folder?
SO,看来Glue没有将S3存储桶作为数据目标,而可能将其作为数据源。 所以,我希望这是错误的。 但是,如果有人使用ETL工具,则AWS的首要基础之一就是可以将数据与AWS的主要存储形式S3存储桶进行数据传输。
所以希望有人可以提供帮助。
答案 0 :(得分:0)
您可以将Glue连接添加到RDS实例,然后使用Spark ETL脚本将数据写入S3。
您必须首先使用Glue Crawler爬网数据库表。这将在数据目录中创建一个表,该表可在作业中用于将数据传输到S3。如果您不想执行任何转换,则可以直接将UI步骤用于自动生成的ETL脚本。
我还写了一个博客,介绍如何使用AWS Glue将关系数据库迁移到Amazon S3。让我知道它是否可以解决您的查询。
https://ujjwalbhardwaj.me/post/migrate-relational-databases-to-amazon-s3-using-aws-glue
答案 1 :(得分:0)
您尝试过https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-copyrdstos3.html吗?
您可以使用AWS Data Pipeline-它具有用于从RDS完全复制和增量复制到s3的标准模板。