使用AWS解析每日json数据的管道?

时间:2019-03-13 00:51:49

标签: amazon-web-services amazon-s3 aws-lambda

json文件每天发布到s3存储桶。我想获取该json文件,对其进行一些处理,然后将数据发布到新的s3存储桶中,将在其中将其提取并存储在Redshift中。为此,推荐的AWS管道是什么?当将新的json文件放置到s3时触发的AWS lambda,然后启动类似AWS批处理作业的启动?或者是其他东西?我对所有的AWS Web服务都不熟悉,因此可能忽略了一些显而易见的事情。

所以流程如下:

s3存储桶-> 数据处理-> s3存储桶-> redshift

这是我不确定的数据处理步骤-如何安排可以每天高效运行的相当可扩展的内容并将数据放回去。处理过程是解析json数据以及一些聚合和数据清理。

1 个答案:

答案 0 :(得分:2)

  

这是我不确定的数据处理步骤-如何安排可以每天高效运行的相当可扩展的内容并将数据放回去。

不用担心Lambda的可扩展性,只需关注正在运行的 short 作业即可。这是一个例子: https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html

我认为您缺少的难题之一是使用Rate或Cron的Schedule Expressions文档:https://docs.aws.amazon.com/lambda/latest/dg/with-scheduledevents-example.html