应用错误收集

如何仅处理aws datapipeline和EMR中的delta文件

时间：2016-10-23 16:15:56

标签： amazon-web-services aws-lambda emr amazon-data-pipeline

如何使用AWS数据管道和EMR处理新文件？我的源目录中可能会有不同数量的文件。我想使用AWS数据管道和EMR作为另一个文件之后的一个文件来处理它们。我不确定预先存在条件＆＃34;如何存在＆＃34;或者＆＃34; Shell Command活动＆＃34;可以解决这个问题。请通过添加EMR步骤或为每个文件创建EMR群集来建议处理文件增量列表的方法。

1 个答案:

答案 0 :(得分：0)

通常在datapipeline中完成的方法是在引用源目录时使用调度表达式。例如，

如果您的pipeine计划每小时运行一次并指定“s3：// bucket /＃{format（minusMinutes（@ scheduledStartTime，60），'YYYY-MM-dd hh'）}”

作为输入目录，当数据管道在第17小时运行时，数据管道将解析为“s3：// bucket / 2016-10-23-16”。因此该作业将只读取对应于第16小时的数据。如果可以以这种方式构造输入以产生数据，这可以使用。有关表达式的更多示例，请参阅http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-pipeline-expressions.html。

不幸的是，没有内置n支持“自上次处理后获取数据”。