如何在python中编写组合器和分区器作业并使用Hadoop Streaming调用它。
答案 0 :(得分:0)
请查看Pydoop。我没有探讨过这个,但根据文档,
Pydoop Script使您可以编写简单的MapReduce程序 带有mapper和reducer的Hadoop只需几行代码即可运行。 当Pydoop Script不够时,你可以切换到更完整的 Pydoop API,提供实现 Python的能力 Partitioner,RecordReader和RecordWriter 。 Pydoop可能不是 适用于所有Hadoop用例的最佳API,但其独特的功能使其成为可能 适用于特定场景,并且正在积极改进。
Here是关于基于Python的 hadoop组合器的SO问题。
其他参考
还有this link其他各种可用的hadoop-python框架的详细信息。
答案 1 :(得分:0)
您可以使用Yelp' MRJob。它很简单,并且有很好的文档,而且我自己也使用它 - 使用与hadoop的Java库相同的接口。是的,它使用的是hadoop流媒体 - 性能可能就是这样。但是,遗憾的是,您仍然需要在Java上编写 partitioner 。