amazon-web-services - AWS Data Pipeline配置的EMR集群运行Spark

请有人帮忙吗？我试图做到这一点;我无法在AWS控制台内的数据管道配置中创建带有Spark安装的EMR环境。我选择在EMR集群上运行作业＆＃39; EMR集群总是使用Pig和Hive创建，而不是Spark。

据我所知，我可以选择Spark作为这里所说的引导动作，但是当我这样做时，我收到这条消息：名称：xxx.xxxxxxx.processing.dp
使用模板构建：在Elastic MapReduce集群上运行作业

参数： EC2密钥对（可选）：xxx_xxxxxxx_emr_key EMR步骤：
spark-submit --deploy-mode cluster s3：//xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3：//xxx.xxxxxxx.scripts.bucket/

EMR发布标签：emr-4.3.0 引导操作（可选）：s3：//support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪里？以上看起来是否正确??

这是我激活数据管道时遇到的错误：无法为@ EmrClusterObj_2017-01-13T09：00：07创建资源，原因是：提供的引导操作：＆＃39; bootstrap-action.6255c495-578a-441a-9d05-d03981fc460d＆＃39;版本＆＃39; emr-4.3.0＆＃39;不支持。（服务：AmazonElasticMapReduce;状态代码：400;错误代码：ValidationException;请求ID：b1b81565-d96e-11e6-bbd2-33fb57aa2526）

如果我指定更高版本的EMR，我是否默认安装Spark？

非常感谢您的帮助。问候。

AWS Data Pipeline配置的EMR集群运行Spark

1 个答案: