如何在Hadoop Streaming中指定一个作为opt解析器(并接受多个参数)作为映射器的python脚本?
例如,
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper myPythonScript.py \
-reducer /bin/wc \
-file myPythonScript.py
这是使用hadoop流执行python脚本的常规命令。如何提及myPythonScript.py是否具有opt解析器。例如。
python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r
如何将其指定为mapper ??
答案 0 :(得分:0)
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper "python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r" \
-reducer /bin/wc \
-file myPythonScript.py