AWS Data Pipeline - 我们可以重新使用在按需提供期间创建的EC2实例吗?管道激活?

时间:2017-10-03 03:42:36

标签: amazon-web-services amazon-data-pipeline

问题 -

我是否可以重复使用在后续按需运行中首次按需运行数据管道时创建的ec2资源?

说明 -

我已经按需配置了一个' AWS数据管道,需要在一天内多次激活(比如在一小时内激活3次)。

(我不能使用cron或timeseries样式调度,因为我必须在每次执行时将不同的参数传递给管道)

在每次按需激活时,数据管道似乎都会创建一个新的ec2资源?是这种情况吗?

我是否可以重复使用在其他后续运行中首次按需运行时创建的ec2资源?

AWS文档提供了以下信息,但不清楚这是否适用于“按需”和“按需”。管道也是如此。

  

AWS Data Pipeline允许您最大限度地提高资源效率   通过支持资源的不同调度周期和   相关活动。

     

例如,考虑一个具有20分钟计划周期的活动。如果   活动的资源也配置了20分钟的时间表   期间,AWS Data Pipeline将创建三个资源实例   在一个小时内消耗三倍于任务所需的资源。

     

相反,AWS Data Pipeline允许您使用a配置资源   不同的时间表例如,一小时的时间表。配对时   AWS Data Pipeline仅在20分钟的时间表上创建活动   一个资源来服务于一个活动的所有三个实例   小时,从而最大限度地利用资源。

1 个答案:

答案 0 :(得分:0)

使用Data-Pipeline管理的资源无法做到这一点。对于这种情况,您需要自己启动EC2实例并配置TaskRunner

  

您可以在计算资源上安装Task Runner   管理,例如Amazon EC2实例,或物理服务器或   工作站。 Task Runner可以安装在任何兼容的任何地方   硬件或操作系统,只要它可以与之通信   AWS Data Pipeline Web服务。

     

将您已安装的任务运行器连接到管道   它应该处理的活动,向对象添加workerGroup字段,   并配置Task Runner以轮询该工作组值。你做   通过传递工作组字符串作为参数(例如,   --workerGroup=wg-12345)当您运行Task Runner JAR文件时。

这样,Data Pipeline将不会为您创建任何资源,并且所有活动都将在您提供的EC2实例上运行。