目前,尝试在AWS上运行使用RDS和EC2实例的定量数据处理管道。管道的一部分需要大量的计算能力,但不是任务或时间关键,因此我想在那时使用一组EC2点实例。
我一直在考虑使用AWS Data Pipeline产品来构建管道。但是,我不确定如何整合现场实例。 AWS文档建议可以使用数据管道在AWS EMR集群中使用spot实例,但不能在其外部使用。寻找建议或最佳实践。
答案 0 :(得分:0)
竞价型实例可用于数据管道中的EC2和EMR资源。
对于ec2实例,您需要在资源上设置bidPrice属性。 ec2资源的管道定义应该如下所示。
{
"id": "EC2Instance",
"type": "Ec2Resource",
"terminateAfter": "1 Hour",
"spotBidPrice": "<my bid price from 0 to 20.0>"
}
对于emr集群,您需要在资源上设置taskInstanceBidPrice属性。 emr资源的管道定义应该如下所示。
{
"id" : "MyEmrCluster",
"type" : "EmrCluster",
"taskInstanceBidPrice": "<my bid price from 0 to 20.0>",
"keypair" : "my-key-pair",
"masterInstanceType" : "m3.xlarge",
"coreInstanceType" : "m3.xlarge",
"coreInstanceCount" : "10",
"taskInstanceType" : "m3.xlarge",
"taskInstanceCount": "10",
"releaseLabel": "emr-4.1.0",
"applications": ["spark", "hive", "pig"],
"configuration": {"ref":"myConfiguration"}
}