应用错误收集

如何在python中为Hadoop Map Reduce作业编写组合器和分区器？我如何在Hadoop Job中调用它

时间：2015-02-04 05:54:29

标签： hadoop mapreduce

如何在python中编写组合器和分区器作业并使用Hadoop Streaming调用它。

2 个答案:

答案 0 :(得分：0)

请查看Pydoop。我没有探讨过这个，但根据文档，

Pydoop Script使您可以编写简单的MapReduce程序带有mapper和reducer的Hadoop只需几行代码即可运行。当Pydoop Script不够时，你可以切换到更完整的 Pydoop API，提供实现 Python的能力 Partitioner，RecordReader和RecordWriter 。 Pydoop可能不是适用于所有Hadoop用例的最佳API，但其独特的功能使其成为可能适用于特定场景，并且正在积极改进。

Here是关于基于Python的 hadoop组合器的SO问题。

其他参考

Reference Link

GitHub Link

还有this link其他各种可用的hadoop-python框架的详细信息。

答案 1 :(得分：0)

您可以使用Yelp＆＃39; MRJob。它很简单，并且有很好的文档，而且我自己也使用它 - 使用与hadoop的Java库相同的接口。是的，它使用的是hadoop流媒体 - 性能可能就是这样。但是，遗憾的是，您仍然需要在Java上编写 partitioner 。