我在单个节点上使用hadoop 1.0.1并且我正在尝试使用python 2.7流式传输制表符分隔文件。我可以使用hadoop / python来运行Michael Noll的字数脚本,但是不能让这个非常简单的mapper和reducer工作,只是重复文件。这是映射器:
import sys
for line in sys.stdin:
line = line.strip()
print '%s' % line
这是减速器:
import sys
for line in sys.stdin:
line = line.strip()
print line
这是输入文件的一部分:
1 857774.000000
2 859164.000000
3 859350.000000
...
mapper和reducer在linux中运行良好:
cat input.txt | python mapper.py | sort | python reducer.py > a.out
但在我chmod mapper和reducer之后,将输入文件移动到hdfs并检查它是否存在并运行:
bin/hadoop jar contrib/streaming/hadoop-*streaming*.jar -file mapperSimple.py -mapper mapperSimple.py -file reducerSimple.py -reducer reducerSimple.py -input inputDir/* -output outputDir
我收到以下错误:
12/06/03 10:19:11 INFO streaming.StreamJob: map 0% reduce 0%
12/06/03 10:20:15 ERROR streaming.StreamJob: Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 1. LastFailedTask: task_201206030550_0003_m_000001
12/06/03 10:20:15 INFO streaming.StreamJob: killJob...
Streaming Job Failed!
有什么想法吗?感谢。
答案 0 :(得分:3)
你的python文件是否有shebang / hashbang标题?我想你的问题是当Java来执行mapper python文件时,它要求os执行该文件,并且没有shebang / hashbang表示法,它不知道如何执行该文件。我还要确保您的文件标有可执行权限(chmod a+x mapperSimple.py
):
#!/usr/bin/python
import sys
for line in sys.stdin:
line = line.strip()
print '%s' % line
从命令行尝试此操作以确保shell知道使用python解释器执行文件:
cat input.txt | ./mapper.py | sort | ./reducer.py > a.out
答案 1 :(得分:0)
除了Chris White之外,shebang标题应为:
#!/usr/bin/env python
默认使用python2.7。如果你想使用python3,你可以使用:
#!/usr/bin/env python3
不要使用:
#!/usr/bin/python
因为它会在大多数计算机上失败..包括我的****叹气****
检查此Answer以获取更多信息