hadoop - 多个集群上的Map reduce

时间:2013-11-12 12:04:44

标签: java python hadoop mapreduce

我已经配置了Hadoop集群。我有两台机器 MA MB 当我使用以下代码运行mapreduce程序时

 hadoop  jar /HDP/hadoop-1.2.0.1.3.0.0-0380/contrib/streaming/hadoop-streaming-1.2.0.1.3.0.0-0380.jar  -mapper "python C:\Python33\mapper.py"  -reducer "python C:\Python33\redu.py"  -input "/user/XXXX/input/input.txt"  -output "/user/XXXX/output/out20131112_09"

其中:mapper - C:\ Python33 \ mapper.py和reducer C:\ Python33 \ redu.py位于MB的本地磁盘

更新 enter image description here

最后我追查了错误。

MA-错误日志

stderr logs
python: can't open file 'C:\Python33\mapper.py': [Errno 2] No such file or directory
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

映射器 - C:\ Python33 \ mapper.py和reducer C:\ Python33 \ redu.py位于MA的本地磁盘,它不在 MB

现在,我是否需要将我的m / r程序复制到 MA 或如何解决此问题

映射

import sys
for line in sys.stdin:
   line = line.strip()
   keys = line.split()
   for key in keys:
       value = 1
       print( '%s \t %d' % (key, value))

1 个答案:

答案 0 :(得分:2)

如果地图输入文件小于dfs.block.size,则每个作业只运行一个任务。对于小输入,您可以强制Hadoop运行多个任务,其中mapred.max.split.size值的字节数小于dfs.block.size