如何在Hadoop Streaming中使用opt parser指定一个python脚本作为mapper

时间:2015-01-24 13:16:30

标签: python python-2.7 hadoop hadoop-streaming optparse

如何在Hadoop Streaming中指定一个作为opt解析器(并接受多个参数)作为映射器的python脚本?

例如,

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper myPythonScript.py \
    -reducer /bin/wc \
    -file myPythonScript.py

这是使用hadoop流执行python脚本的常规命令。如何提及myPythonScript.py是否具有opt解析器。例如。

python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r

如何将其指定为mapper ??

1 个答案:

答案 0 :(得分:0)

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper "python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r" \
    -reducer /bin/wc \
    -file myPythonScript.py