适用于小数据的AWS ETL解决方案

时间:2019-10-29 23:42:18

标签: amazon-web-services aws-glue aws-batch aws-data-pipeline

我的目标是从S3文件中获取数据,进行转换并将其保存到数据源(可以是dynamoDB或RDS)。并且文件大小将小于20MB,并且可能会定期(一天一次)上传多个(〜10个)此类文件。我正在考虑使用以下方法。

  1. AWS lambda
  2. AWS批处理。

理想情况下,文件处理应少于15分钟,但不能保证文件大小。因此,从理论上讲,文件处理可能超出了lambda的处理能力。所以我想到的方法是事先检查是否可以通过lambda完成文件处理。如果是,请调用lambda。其他触发器批处理作业。到目前为止,我正在考虑使用dynamoDB,但不能保证项目大小<400KB,但是实际上项目大小将<400KB。如果我将数据库切换到RDS,我提出的设计会有所不同吗?

我的另一个问题是何时考虑使用传统的ETL方法,例如使用AWS数据管道或EMR或Glue。

0 个答案:

没有答案