是否有一种使用终端模拟MapReduce作业的简单方法?我想知道在编写代码时是否有一种简单的方法来调试我的代码。
答案 0 :(得分:3)
我习惯使用Python进行Hadoop流式传输,但我相信这个解决方案也可以复制到其他语言中。所以,这是我的解决方案:
cat input_folder/* | python map.py | sort | python reduce.py
通过简单地运行,您可以看到减速器接收的值作为输入也是有效的:
cat input_folder/* | python map.py | sort