运行群集步骤以在EMR上上传文件

时间:2018-09-26 03:42:04

标签: amazon-web-services amazon-emr

我有一个包含步骤数的EMR集群。我正在尝试分析每周都会收到的日志数据。我想每周对附加数据执行相同的步骤。

长时间运行的集群

  1. data source加载日志文件(如果随后运行,则从日志文件加载或复制记录)
  2. 分析数据
  3. 将数据返回到目的地

如何每周在集群上运行相同的步骤?

还是我每周需要启动新集群?

在这种处理海量数据的情况下,如果我能够获得有关数据源类型的一些指导,那就太好了。

1 个答案:

答案 0 :(得分:0)

您可以通过调用add-steps — AWS CLI Command Reference向集群提交新步骤。

因此,您将需要一个cron作业来调用集群以添加步骤。您可以在“主”节点上创建cron作业,或者有许多可以计划和编排作业的Hadoop工具。

您肯定不需要,因为您已有集群在运行,所以不需要新节点。