我需要将来自多个本地数据源的数据提取到我的Redshift中。此摄取将是一天中每6小时运行一次的计划活动。该过程应该能够识别增量记录并仅加载Redshift中的新/已更改记录。在所有这些过程中,还应该提供重启选项。我正在尝试使用完全AWS服务或结合使用python程序和aws服务。
我的想法是设置从外部源到s3的数据流,然后为任何数据处理/争吵要求临时启动ec2实例,然后将策划的数据写回s3,终止ec2实例并使用redshift加载数据datapipeline。
你能否提出一些建议。如果您有类似项目的经验,请分享您的经验。如果可能,请分享设计和相关代码以供参考。
答案 0 :(得分:0)
建议查看AWS架构转换工具(AWS SCT)和AWS数据库迁移服务(AWS DMS)。
DMS可以帮助您建立从内部源到Redshift的持续数据移动,包括将数据暂存到S3。 Supported sources are list in the docs.
从这篇博客文章开始:"How to Migrate Your Oracle Data Warehouse to Amazon Redshift Using AWS SCT and AWS DMS"