在文件part-00000中我们可以找到所有进程的结果(map + reduce),但我希望看到第一步(映射)的结果然后是整个结果。
我正在使用python map-reduce脚本处理Hadoop Cloudera。
答案 0 :(得分:0)
我猜你要输出地图的结果或地图的过程,一种解决方案是将地图的结果输出到stderr。 例如: 如果是python:
import sys
print >> sys.stderr, "result of map"
如果是shell:
echo -e "result of map" >&2
然后,您可以看到hadoop作业日志中的地图结果
答案 1 :(得分:0)
如果只是为了初步分析目的而理解数据和密钥,那么您可能希望将Reducer计数设置为0并获取地图的输出。 -D mapred.reduce.tasks = 0是java中的一种方式,对Python也是如此。