如何在AWS EC2上安装spark客户端,哪个spark作业将提交给具有集群工作节点的EMR主节点?
请您指点文档配置上述架构中的spark。
答案 0 :(得分:2)
您可以在https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-launch.html
查看AWS EMR文档以获取更多详细信息以下用于使用AWS CLI启动AWS EMR集群的命令
aws emr create-cluster --release-label emr-5.10.0 \
--name 'My Cluster' \
--applications Name=Hadoop Name=Spark \
--service-role EMR_DefaultRole \
--ec2-attributes KeyName=<my_key_file_name> \
--instance-groups Name=MASTER,InstanceGroupType=MASTER,InstanceCount=1,InstanceType=r4.2xlarge Name=CORE,InstanceGroupType=CORE,InstanceCount=4,InstanceType=r4.xlarge Name=TASK,InstanceGroupType=TASK,InstanceCount=25,InstanceType=r4.xlarge,BidPrice=0.10 \
--region us-east-2 \
--log-uri 's3n://cv-e2deep-emr/emr-logs/' \
--use-default-roles \
--enable-debugging
您可以将火花作业添加为 step
到群集。每当AWS完成集群设置时,它都会触发该spark作业。
查看文档https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-submit-step.html
步骤如下所示:
--steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10]
有关完整信息,请查看文档:
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark.html