将映射器输出写入文件和reducer也是如此

时间:2017-03-23 10:07:25

标签: python hadoop

我正在为python中的hadoop流编写mappers和reducer。 Mappers和Reducer运行正常,没有任何问题。我希望mapper将输出写入文件和reducer。是否可以这样做以及如何做?如果不可能,我需要再次单独运行映射器代码。我执行如下,

hadoop jar /opt/mapr/hadoop/hadoop-2.7.0/share/hadoop/tools/lib/hadoop-streaming-2.7.0-mapr-1602.jar -Dmapreduce.job.queuename=<q-name> -Dmapreduce.map.java.opts=-Xmx40960m -Dmapreduce.map.memory.mb=5000 -Dyarn.app.mapreduce.am.resource.mb=20000 -Dmapreduce.task.timeout=180000000 -mapper "<mapper-code-loc>.py" -reducer "<reducer-code-loc>.py" -input "input-hdfs-loc" -output "output-hdfs-location" -numReduceTasks 3

这里有什么帮助吗?谢谢。

0 个答案:

没有答案