Hadoop 2.7.3 Streaming Jar无效

时间:2016-12-30 11:22:52

标签: python hadoop jar

我是Hadoop的新手,并尝试使用this运行一个简单的程序。

我已将本地示例数据复制到hdfs,但在我的地图中减少作业,当我按照官方apache文档运行此命令时

hadoop jar hadoop-streaming-2.7.3.jar \
-input /user/hduser/gutenberg/* \
-output /user/hduser/gutenberg-output \
-mapper /home/hduser/mapper.py \
-reducer /home/hduser/reducer.py

我收到此错误

  

不是有效的JAR:/usr/lib/hadoop-streaming-2.7.3.jar

请尽力帮助我。

2 个答案:

答案 0 :(得分:3)

正在使用hadoop 2.7.3

这是您需要运行的命令

[Linux] $ hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -file /home/python/mapper.py / home / python / reducer。 py -mapper" python mapper.py" -reducer" python reducer1.py" -input / tmp / word_i -output / tmp / word_output

答案 1 :(得分:0)

hadoop-streaming-jar的位置:

$ HADOOP_HOME /共享/ hadoop的/工具/ LIB / Hadoop的流-2.7.1.2.4.2.0-258.jar

因为$ HADOOP_HOME有时不相同。