AWS Data Pipeline配置的EMR集群运行Spark

时间:2017-01-13 11:01:44

标签: amazon-web-services amazon-emr amazon-data-pipeline

请有人帮忙吗?我试图做到这一点;我无法在AWS控制台内的数据管道配置中创建带有Spark安装的EMR环境。我选择在EMR集群上运行作业' EMR集群总是使用Pig和Hive创建,而不是Spark。

据我所知,我可以选择Spark作为这里所说的引导动作,但是当我这样做时,我收到这条消息: 名称:xxx.xxxxxxx.processing.dp
使用模板构建:在Elastic MapReduce集群上运行作业

参数: EC2密钥对(可选):xxx_xxxxxxx_emr_key EMR步骤:
spark-submit --deploy-mode cluster s3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/

EMR发布标签:emr-4.3.0 引导操作(可选):s3://support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪里?以上看起来是否正确??

这是我激活数据管道时遇到的错误: 无法为@ EmrClusterObj_2017-01-13T09:00:07创建资源,原因是:提供的引导操作:' bootstrap-action.6255c495-578a-441a-9d05-d03981fc460d'版本' emr-4.3.0'不支持。 (服务:AmazonElasticMapReduce;状态代码:400;错误代码:ValidationException;请求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526)

如果我指定更高版本的EMR,我是否默认安装Spark?

非常感谢您的帮助。 问候。

1 个答案:

答案 0 :(得分:3)

install-spark bootstrap操作仅适用于3.x AMI版本。如果您使用的是releaseLabel(emr-4.x或更高版本),则要以不同的方式指定要安装的应用程序。

我自己从未使用过Data Pipeline,但我看到,如果在创建管道时,单击底部的“在Architect中编辑”,则可以单击EmrCluster节点并从“添加”中选择“应用程序”。一个可选字段......“下拉列表。这是你可以添加Spark的地方。