如何找到JAR:/home/hadoop/contrib/streaming/hadoop-streaming.jar

时间:2015-09-12 21:07:26

标签: java python hadoop amazon-web-services emr

我正在练习关于亚马逊EMR的视频教程。由于我收到此错误,我陷入困境,因为我无法继续

Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar

请注意,教程已经过时,它使用的是旧的Emr版本。我使用的最新版本是一个问题?

我采取的步骤是在putty中输入凭证

之后
  

1)Hadoop

     

2)mkdir streamingCode`

     

3)wget -o ./streamingCode/wordSplitter.py   s3://elasticmapreduce/samples/wordcount/wordSplitter.py

     

4)hadoop jar contrib / streaming / hadoop-streaming.jar -files   streamingCode / wordSplitter.py -mapper wordSplitter.py输入   s3:// elasticmapreduce / samples / wordcount / input -output   streamingCode / wordCountOut -reducer aggregate`

我无法执行第4步,因为我收到以下错误

Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar

2 个答案:

答案 0 :(得分:7)

最新版本的EMR Hadoop仍然提供Hadoop流媒体jar。从EMR版本4.0.0开始,可以在/usr/lib/hadoop-mapreduce/hadoop-streaming.jar找到。

版本之间差异的另一个好资源可以在http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-differences.html找到。

答案 1 :(得分:5)

对于变量HADOOP_STREAMING,根据您使用的HDP,获取路径会稍微复杂一些。

通过命令搜索它所在的位置: find / -name'hedoop-streaming * .jar'

Src:http://thecoatlessprofessor.com/programming/installing-r-studio-server-on-hortonworks-virtual-box-image-and-rmr2-a-k-a-rhadoop-r-package/