AWS中基于依赖关系的ETL流程

时间:2017-09-11 19:05:57

标签: amazon-web-services amazon-s3 aws-lambda amazon-data-pipeline amazon-swf

我们希望在S3中基于输入数据创建动态流。基于S3中可用的数据以及元数据,我们希望在系统中创建动态集群和动态任务/转换作业。有些工作是基于依赖的。在这里,我分享了预期的流程,想知道我们使用AWS服务和环境如何有效地完成这项工作。

我正在探索AWS SWF,Data Pipe Line和Lambda。但现在确定如何处理动态任务和动态依赖关系。对此有任何想法。

数据流在附图中说明(参考ETL流程) ETL Flow

2 个答案:

答案 0 :(得分:0)

如果您使用属于官方SWF客户端的AWS Flow Framework,那么对此类动态流进行建模非常简单。您可以定义其对象模型,编写基于管道定义实例化它的代码并使用框架执行。有关此类动态工作流实施的示例,请参阅Deployment Sample

答案 1 :(得分:0)

使用S3触发器的Amazon步骤功能应该以经济高效且可扩展的方式完成工作。

所有步骤均以州语言定义。

https://states-language.net/spec.html

您可以并行运行作业,并在开始下一份工作之前等待它们完成。

以下是AWS Step Functions的示例之一

Step Functions Description