更优雅的方式在本地测试mapreduce流媒体作业?

时间:2016-01-11 19:09:12

标签: python hadoop testing mapreduce

我在Python中编写了mapreduce作业。在我把它放在EMR之前,我想在本地进行测试。

目前我知道测试的唯一方法是运行命令:

cat input_file | python mapper.py | sort -k 1,1 | python reducer > output_file

但管道对我来说有点吓人,因为如果有什么中断我不知道(除了检查这个命令的退出代码)。

是否有更优雅/ pythonic的方式来运行mapreduce并检查它是否成功运行(所以我可以捕获一个特定的异常并处理它)?

谢谢

1 个答案:

答案 0 :(得分:0)

一种显而易见的方法是在本地Hadoop框架中测试您的代码。 例如,您可以在VM中使用打包的Hadoop群集,由ClouderaHortonworks提供。