如何仅在管道流中的活动完成后在AWS Data PipeLine中启动EMR群集

时间:2017-10-09 05:18:07

标签: amazon-data-pipeline

仅在完成AWS Data Pipeline流程中的一项活动后才能启动EMR群集。

  1. 从Redshift卸载一些数据(可能需要一小时或一小时+)。
  2. 启动EMR群集
  3. 在EMR群集中执行SPARK作业
  4. 执行其他一些活动
  5. 终止群集
  6. 所以,我希望有一个像#34; Start EMr Cluster"应该依赖于"将数据从Redshift卸载到S3"和" Terminate Cluster"应该依赖于"执行Spark工作,执行其他一些活动"。

    有人可以帮我解决这个问题。

    -Krish

1 个答案:

答案 0 :(得分:0)

你可以利用Precondition来做到这一点 以下是有关详细信息的文档

您也可以使用复制操作并将复制操作作为前提条件

来完成

因此,一旦满足,就可以将依赖作为前提条件,然后创建EMR集群。

https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-concepts-preconditions.html

Precondition