如何仅处理aws datapipeline和EMR中的delta文件

时间:2016-10-23 16:15:56

标签: amazon-web-services aws-lambda emr amazon-data-pipeline

如何使用AWS数据管道和EMR处理新文件?我的源目录中可能会有不同数量的文件。我想使用AWS数据管道和EMR作为另一个文件之后的一个文件来处理它们。我不确定预先存在条件"如何存在"或者" Shell Command活动"可以解决这个问题。请通过添加EMR步骤或为每个文件创建EMR群集来建议处理文件增量列表的方法。

1 个答案:

答案 0 :(得分:0)

通常在datapipeline中完成的方法是在引用源目录时使用调度表达式。例如,

如果您的pipeine计划每小时运行一次并指定“s3:// bucket /#{format(minusMinutes(@ scheduledStartTime,60),'YYYY-MM-dd hh')}”

作为输入目录,当数据管道在第17小时运行时,数据管道将解析为“s3:// bucket / 2016-10-23-16”。因此该作业将只读取对应于第16小时的数据。如果可以以这种方式构造输入以产生数据,这可以使用。有关表达式的更多示例,请参阅http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.html

不幸的是,没有内置n支持“自上次处理后获取数据”。