是否可以在map-reduce过程中可视化mapper结果?

时间:2015-11-28 14:14:03

标签: python hadoop dictionary cloudera reduce

在文件part-00000中我们可以找到所有进程的结果(map + reduce),但我希望看到第一步(映射)的结果然后是整个结果。

我正在使用python map-reduce脚本处理Hadoop Cloudera。

2 个答案:

答案 0 :(得分:0)

我猜你要输出地图的结果或地图的过程,一种解决方案是将地图的结果输出到stderr。 例如: 如果是python:

import sys
print >> sys.stderr, "result of map"

如果是shell:

echo -e "result of map" >&2

然后,您可以看到hadoop作业日志中的地图结果

答案 1 :(得分:0)

如果只是为了初步分析目的而理解数据和密钥,那么您可能希望将Reducer计数设置为0并获取地图的输出。 -D mapred.reduce.tasks = 0是java中的一种方式,对Python也是如此。