hadoop,python,subprocess失败,代码为127

时间:2017-03-27 14:06:35

标签: python hadoop mapreduce cloudera hadoop-streaming

我正在尝试使用mapreduce执行非常简单的任务。

mapper.py:

#!/usr/bin/env python
import sys
for line in sys.stdin:
    print line

我的txt文件:

qwerty
asdfgh
zxc

运行作业的命令行:

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py

错误:

INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

如何解决此问题并运行代码? 当我使用cat /home/cloudera/Documents/test.txt | python /home/cloudera/Documents/map.py时,它可以正常工作

!!!!! UPDATE

我的* .py文件有问题。我从github'tom white hadoop book'复制了文件,一切正常。

但我不明白是什么原因。它不是权限和字符集(如果我没有错)。还有什么呢?

5 个答案:

答案 0 :(得分:6)

我遇到了同样的问题。

<强>问题: 在Windows环境中创建python文件时,新行字符为 CRLF 。 我的hadoop在Linux上运行,它将换行符理解为 LF

enter image description here

<强>解决方案: CRLF 更改为 LF 后,步骤成功运行。

enter image description here

答案 1 :(得分:0)

-mapper参数中,您应该设置命令,以便在群集节点上运行。所以那里没有/home/cloudera/Documents/map.py文件。 使用-files选项传递的文件放在工作目录中,因此您可以通过以下方式使用它:./map.py

我不记得为此文件设置了哪些权限,因此如果没有执行权限,请将其用作python map.py

所以完整的命令是

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper "python map.py" \
-file /home/cloudera/Documents/map.py

答案 2 :(得分:0)

您的mapper.py或reducer.py。中存在错误,例如:

  1. 不在文件顶部使用#!/usr/bin/env python
  2. Python代码中的语法或逻辑错误。 (例如,print2在python2和python3中具有不同的语法。)

答案 3 :(得分:0)

在macOS上的本地HADOOP 3.2.1上,我在这里https://stackoverflow.com/a/61624913/4201275解决了我的问题java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127

答案 4 :(得分:-1)

首先检查python --version。如果python --version的输出是

Command 'python' not found, but can be installed with:

sudo apt install python3       
sudo apt install python        
sudo apt install python-minimal

You also have python3 installed, you can run 'python3' instead.

使用sudo apt install python安装python并运行您的hadoop作业

在我的PC上,它可以正常工作