如何在终端上调试MapReduce任务?

时间:2015-03-27 00:14:49

标签: hadoop mapreduce hadoop-streaming

是否有一种使用终端模拟MapReduce作业的简单方法?我想知道在编写代码时是否有一种简单的方法来调试我的代码。

1 个答案:

答案 0 :(得分:3)

我习惯使用Python进行Hadoop流式传输,但我相信这个解决方案也可以复制到其他语言中。所以,这是我的解决方案:

cat input_folder/* | python map.py | sort | python reduce.py

通过简单地运行,您可以看到减速器接收的值作为输入也是有效的:

cat input_folder/* | python map.py | sort