如何在Amazon EMR上为Hadoop Streaming作业加载其他JAR

时间:2015-02-07 21:17:02

标签: python hadoop jar streaming amazon-emr

TL; DR

如何在Amazon Elastic MapReduce(Amazon EMR)上向Hadoop流媒体作业上传或指定其他JAR?

长版

我想在Amazon Elastic MapReduce(Amazon EMR)上使用Hadoop分析一组Avro文件(> 2000个文件)。这应该是一个简单的练习,通过它我可以对MapReduce和Amazon EMR获得一些信心(我是两者都是新手)。

由于python是我最喜欢的语言,所以我决定使用Hadoop Streaming。我在python中构建了一个简单的mapper和reducer,我在本地Hadoop(单节点安装)上测试了它。我在本地Hadoop安装上发出的命令是:

$HADOOP_PREFIX/bin/hadoop jar $HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming-2.4.0-amzn-1.jar \
                  -files avro-1.7.7.jar,avro-mapred-1.7.7.jar \
                  -libjars avro-1.7.7.jar,avro-mapred-1.7.7.jar \
                  -input "input" \
                  -mapper "python2.7 $PWD/mapper.py"  \
                  -reducer "python2.7 $PWD/reducer.py" \
                  -output "output/outdir" \
                  -inputformat org.apache.avro.mapred.AvroAsTextInputFormat

并且工作成功完成。

我在Amazon S3上有一个存储桶,其中包含一个包含所有输入文件的文件夹,另一个文件夹包含mapper和reducer脚本(分别为mapper.pyreducer.py)。

使用我创建了一个小集群的接口,然后我添加了一个bootstrap action来安装每个节点上所有必需的python模块,然后我添加了一个"Hadoop Streaming" step来指定映射器的位置S3上的和reducer脚本。

问题在于,我对如何上传或在选项中指定两个JAR(avro-1.7.7.jaravro-mapred-1.7.7.jar - 没有任何想法。工作?

我尝试了几件事:

  • 在可选参数中使用-files标志和-libjars;
  • 添加另一个在每个节点上下载JAR的引导操作(我试图在节点上的不同位置下载它);
  • 我尝试在我的存储桶上传JAR并指定一个完整的s3://...路径作为-libjars的参数(注意:这些文件被Hadoop主动忽略,并发出警告)选项;

如果我没有通过两个JAR,则作业失败(它无法识别-inputformat类),但我已经尝试了所有可能性(以及它们的组合!)我能想到没有果。

1 个答案:

答案 0 :(得分:3)

最后,我想出来了(当然,这显然是明显的):

以下是我的表现:

  1. 添加一个在每个节点上下载JAR的引导操作,例如,您可以在存储桶中上传JAR,将其公开,然后执行:

    wget https://yourbucket/path/somejar.jar -O $HOME/somejar.jar
    wget https://yourbucket/path/avro-1.7.7.jar -O $HOME/avro-1.7.7.jar
    wget https://yourbucket/path/avro-mapred-1.7.7.jar -O $HOME/avro-mapred-1.7.7.jar
    
  2. 在可选参数中指定-libjars时,请使用 abosolute 路径,以便:

    -libjars /home/hadoop/somejar.jar,$HOME/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar
    
  3. 我已经失去了几个小时,我很惭愧地说,希望这有助于其他人。

    编辑(2015年2月10日)

    我已经进行了双重检查,我想指出,传递给可选参数字段时,环境变量似乎没有展开。因此,请使用显式的$ HOME路径(即/home/hadoop

    编辑(2015年2月11日)

    如果要使用AWS cli在Amazon EMR上启动流式传输作业,可以使用以下命令。

    aws emr create-cluster  --ami-version '3.3.2' \
                            --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType='m1.medium' InstanceGroupType=CORE,InstanceCount=2,InstanceType='m3.xlarge' \
                            --name 'TestStreamingJob' \
                            --no-auto-terminate \
                            --log-uri 's3://path/to/your/bucket/logs/' \
                            --no-termination-protected \
                            --enable-debugging \
                            --bootstrap-actions Path='s3://path/to/your/bucket/script.sh',Name='ExampleBootstrapScript' Path='s3://path/to/your/bucket/another_script.sh',Name='AnotherExample' \
                            --steps file://./steps_test.json
    

    您可以在JSON文件中指定步骤:

    [
     {
      "Name": "Avro",
      "Args": ["-files","s3://path/to/your/mapper.py,s3://path/to/your/reducer.py","-libjars","/home/hadoop/avro-1.7.7.jar,/home/hadoop/avro-mapred-1.7.7.jar","-inputformat","org.apache.avro.mapred.AvroAsTextInputFormat","-mapper","mapper.py","-reducer","reducer.py","-input","s3://path/to/your/input_directory/","-output","s3://path/to/your/output_directory/"],
      "ActionOnFailure": "CONTINUE",
      "Type": "STREAMING"
     }
    ]
    

    (请注意,official Amazon documentation有点过时了,实际上它使用的旧版Amazon EMR CLI工具deprecated支持更多的AWS CLI}