我正在练习关于亚马逊EMR的视频教程。由于我收到此错误,我陷入困境,因为我无法继续
Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar
请注意,教程已经过时,它使用的是旧的Emr版本。我使用的最新版本是一个问题?
我采取的步骤是在putty中输入凭证
之后1)Hadoop
2)mkdir streamingCode`
3)wget -o ./streamingCode/wordSplitter.py s3://elasticmapreduce/samples/wordcount/wordSplitter.py
4)hadoop jar contrib / streaming / hadoop-streaming.jar -files streamingCode / wordSplitter.py -mapper wordSplitter.py输入 s3:// elasticmapreduce / samples / wordcount / input -output streamingCode / wordCountOut -reducer aggregate`
我无法执行第4步,因为我收到以下错误
Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar
答案 0 :(得分:7)
最新版本的EMR Hadoop仍然提供Hadoop流媒体jar。从EMR版本4.0.0开始,可以在/usr/lib/hadoop-mapreduce/hadoop-streaming.jar
找到。
版本之间差异的另一个好资源可以在http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-release-differences.html找到。
答案 1 :(得分:5)
对于变量HADOOP_STREAMING,根据您使用的HDP,获取路径会稍微复杂一些。
通过命令搜索它所在的位置: find / -name'hedoop-streaming * .jar'