如何在Amazon EMR实例中安装s3cmd

时间:2015-09-03 09:00:04

标签: amazon-s3 emr amazon-emr s3cmd

我正在构建一个 Apache Spark 应用程序,该应用程序在EMR实例中执行。为此,我正在创建一个集群,之后我将步骤添加到集群中以执行Spark应用程序

在Spark应用程序中,我需要对S3执行读/写操作。 要与S3服务进行交互,我需要在 EMR实例中安装 s3cmd 。 另外,在创建EMR集群时,我需要使用--bootstrap-application

安装和配置s3cmd

但我需要有关如何使用bootstrap-application

安装和配置s3cmd的详细信息

请向我提供有关它的适当信息

2 个答案:

答案 0 :(得分:2)

https://dbaumgartel.wordpress.com/2014/04/10/an-elastic-mapreduce-streaming-example-with-python-and-ngrams-on-aws/

给出了一个将python脚本推送到S3(在本地计算机上使用s3cmd)的示例,这些脚本在EMR应用程序中使用。然后,将源数据推送到S3,EMR应用程序将结果放入S3。您可以在本地计算机上使用s3cmd来推送源数据并下载结果。

如果您的源数据已在S3或AWS中的其他位置,您始终可以创建一个新的EC2实例,在该实例中运行s3cmd以将数据输入正确的S3存储桶进行处理。

答案 1 :(得分:0)

使用自定义引导操作。

  

“引导操作是在群集节点上运行的脚本   Amazon EMR启动群集。它们在Hadoop启动之前运行   在节点开始处理数据之前。“

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#bootstrapCustom