我的目标是从S3文件中获取数据,进行转换并将其保存到数据源(可以是dynamoDB或RDS)。并且文件大小将小于20MB,并且可能会定期(一天一次)上传多个(〜10个)此类文件。我正在考虑使用以下方法。
理想情况下,文件处理应少于15分钟,但不能保证文件大小。因此,从理论上讲,文件处理可能超出了lambda的处理能力。所以我想到的方法是事先检查是否可以通过lambda完成文件处理。如果是,请调用lambda。其他触发器批处理作业。到目前为止,我正在考虑使用dynamoDB,但不能保证项目大小<400KB,但是实际上项目大小将<400KB。如果我将数据库切换到RDS,我提出的设计会有所不同吗?
我的另一个问题是何时考虑使用传统的ETL方法,例如使用AWS数据管道或EMR或Glue。