使用aws emr定期处理数据

时间:2012-05-17 19:38:05

标签: amazon-emr emr

我认为我对this thread中提出的问题提出了类似的问题,但我会尝试更具体......

使用aws定期处理数据的最佳方法是什么。例如,我想每分钟处理一次汇总到S3的报告。最好的方法是通过某些脚本每分钟为现有作业添加一个步骤吗?

3 个答案:

答案 0 :(得分:2)

好吧,现在我要编写一个脚本:

  • 从aws
  • 获取作业流程详细信息
  • 如果作业处于等待状态 - 为作业添加新步骤
  • 由于我使用的是PHP AmazonEMR,我将添加一些代码来处理 最大256个步骤限制(创建相同的新作业流程) 如果我有超过200个参数并终止现有参数 例如,步骤。

一旦我准备好代码,我会更新这个帖子,稍后我会在生产中看到它如何在几周内保存

答案 1 :(得分:1)

我会使用引导操作在主节点上安装cron作业。

答案 2 :(得分:0)

考虑(新)AWS Lambda服务。您上传脚本并设置要监视的S3存储桶/文件夹。每次将新输入添加到文件夹时都会运行代码,并根据需要旋转EC2实例以满足需求。

https://aws.amazon.com/lambda/