应用错误收集

如何在Amazon EMR实例中安装s3cmd

时间：2015-09-03 09:00:04

标签： amazon-s3 emr amazon-emr s3cmd

我正在构建一个 Apache Spark 应用程序，该应用程序在EMR实例中执行。为此，我正在创建一个集群，之后我将步骤添加到集群中以执行Spark应用程序

在Spark应用程序中，我需要对S3执行读/写操作。要与S3服务进行交互，我需要在 EMR实例中安装 s3cmd 。另外，在创建EMR集群时，我需要使用--bootstrap-application

安装和配置s3cmd
但我需要有关如何使用bootstrap-application
安装和配置s3cmd的详细信息
请向我提供有关它的适当信息

2 个答案:

答案 0 :(得分：2)

https://dbaumgartel.wordpress.com/2014/04/10/an-elastic-mapreduce-streaming-example-with-python-and-ngrams-on-aws/

给出了一个将python脚本推送到S3（在本地计算机上使用s3cmd）的示例，这些脚本在EMR应用程序中使用。然后，将源数据推送到S3，EMR应用程序将结果放入S3。您可以在本地计算机上使用s3cmd来推送源数据并下载结果。

如果您的源数据已在S3或AWS中的其他位置，您始终可以创建一个新的EC2实例，在该实例中运行s3cmd以将数据输入正确的S3存储桶进行处理。

答案 1 :(得分：0)

使用自定义引导操作。

“引导操作是在群集节点上运行的脚本 Amazon EMR启动群集。它们在Hadoop启动之前运行在节点开始处理数据之前。“

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#bootstrapCustom