我有一个包含步骤数的EMR集群。我正在尝试分析每周都会收到的日志数据。我想每周对附加数据执行相同的步骤。
长时间运行的集群:
data source
加载日志文件(如果随后运行,则从日志文件加载或复制记录)如何每周在集群上运行相同的步骤?
还是我每周需要启动新集群?
在这种处理海量数据的情况下,如果我能够获得有关数据源类型的一些指导,那就太好了。
答案 0 :(得分:0)
您可以通过调用add-steps — AWS CLI Command Reference向集群提交新步骤。
因此,您将需要一个cron
作业来调用集群以添加步骤。您可以在“主”节点上创建cron作业,或者有许多可以计划和编排作业的Hadoop工具。
您肯定不需要,因为您已有集群在运行,所以不需要新节点。