查看有关如何使用python启动AWS EMR集群以运行pyspark步骤的示例

时间:2018-01-27 13:13:37

标签: python amazon-web-services pyspark emr

我正在寻找启动带有pyspark步骤的AWS EMR集群的端到端示例,并在步骤完成或失败时自动终止。

我已经看过这个解释的部分但不是一个完整的例子。

1 个答案:

答案 0 :(得分:0)

首先,您应该查看EMR的AWS文档,其中提供了所有可用API的详细信息

https://docs.aws.amazon.com/emr/latest/APIReference/API_Operations.html

您可以使用两个选项来访问aws服务:

1)boto3:http://boto3.readthedocs.io/en/latest/index.html

boto3为您提供了一组控制不同aws服务的功能。

2)aws-cli:https://github.com/aws/aws-cli

这为命令行客户端提供了访问不同服务的aws apis的功能。

您可以将上述任一服务用于您的任务,并拥有良好的文档。

就emr而言,您可以参考以下具体文件:

http://boto3.readthedocs.io/en/latest/reference/services/emr.html

https://github.com/aws/aws-cli/tree/develop/awscli/examples/emr

尝试一些这些API,如果你遇到困难,可以随时寻求帮助。