关于aws的批处理的建议

时间:2015-02-10 19:07:16

标签: amazon-web-services

我是使用AWS的新手,所以任何指针都会受到赞赏。 我需要使用我们的内部软件处理大型文件。

它需要大约2GB的输入并产生5GB的输出,在c3.8xlarge上运行2小时。

现在我手动执行,启动实例(按需或点请求),但现在我想要可靠地自动化和扩展此处理 - 有什么好的框架或平台或亚马逊服务来做到这一点? 特别是关于点实例将被中途终止的可能性(我需要检测并重新启动作业)。

我听说过Python Celery,但它是否适用于amazon和spot-instances? 还是有其他推荐的机制?

谢谢!

1 个答案:

答案 0 :(得分:0)

这有些基于意见,但您可以混合搭配某些AWS片段,以便更轻松:

  • 将输入数据放在S3
  • 将条目推入SQS队列,指示需要使用长可见性超时处理作业
  • 在CloudFormation中使用您的计算机描述设置autoscaling policy based on SQS
  • 使用UserData/cloudinit设置计算机并启动应用程序
  • 编写代码以接收队列条目,开始处理,完成处理,然后删除SQS消息。
  • 代码应该检查另一个排队的条目。如果没有,代码应终止机器。