问题 -
我是否可以重复使用在后续按需运行中首次按需运行数据管道时创建的ec2资源?
说明 -
我已经按需配置了一个' AWS数据管道,需要在一天内多次激活(比如在一小时内激活3次)。
(我不能使用cron或timeseries样式调度,因为我必须在每次执行时将不同的参数传递给管道)
在每次按需激活时,数据管道似乎都会创建一个新的ec2资源?是这种情况吗?
我是否可以重复使用在其他后续运行中首次按需运行时创建的ec2资源?
AWS文档提供了以下信息,但不清楚这是否适用于“按需”和“按需”。管道也是如此。
AWS Data Pipeline允许您最大限度地提高资源效率 通过支持资源的不同调度周期和 相关活动。
例如,考虑一个具有20分钟计划周期的活动。如果 活动的资源也配置了20分钟的时间表 期间,AWS Data Pipeline将创建三个资源实例 在一个小时内消耗三倍于任务所需的资源。
相反,AWS Data Pipeline允许您使用a配置资源 不同的时间表例如,一小时的时间表。配对时 AWS Data Pipeline仅在20分钟的时间表上创建活动 一个资源来服务于一个活动的所有三个实例 小时,从而最大限度地利用资源。
答案 0 :(得分:0)
使用Data-Pipeline管理的资源无法做到这一点。对于这种情况,您需要自己启动EC2实例并配置TaskRunner:
您可以在计算资源上安装Task Runner 管理,例如Amazon EC2实例,或物理服务器或 工作站。 Task Runner可以安装在任何兼容的任何地方 硬件或操作系统,只要它可以与之通信 AWS Data Pipeline Web服务。
将您已安装的任务运行器连接到管道 它应该处理的活动,向对象添加
workerGroup
字段, 并配置Task Runner以轮询该工作组值。你做 通过传递工作组字符串作为参数(例如,--workerGroup=wg-12345
)当您运行Task Runner JAR文件时。
这样,Data Pipeline将不会为您创建任何资源,并且所有活动都将在您提供的EC2实例上运行。