Question

如何在Hadoop Streaming中指定一个作为opt解析器（并接受多个参数）作为映射器的python脚本？

例如，

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper myPythonScript.py \
    -reducer /bin/wc \
    -file myPythonScript.py

这是使用hadoop流执行python脚本的常规命令。如何提及myPythonScript.py是否具有opt解析器。例如。

python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r

如何将其指定为mapper ??

Answer 1

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper "python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r" \
    -reducer /bin/wc \
    -file myPythonScript.py

如何在Hadoop Streaming中使用opt parser指定一个python脚本作为mapper

1 个答案: