这个模型是否正确适合hadoop?

时间:2014-12-08 19:13:53

标签: hadoop word-count

我需要知道我的用例是否为hadoop正确构建。假设我想在hadoop集群上运行单词count jar,但我希望我的输出排序,使得每个输出文件只有具有相同起始字母的单词。

我相信我可以使用分区器类,根据单词的第一个字母排序到不同的reducer。我认为每个字母有26个减速器可以按照我想要的方式输出。但我需要知道这是否可能和正确的方法来解决有关hadoop的这类问题。

1 个答案:

答案 0 :(得分:1)

是的,这将是最简单的方法 - 每个起始字母一个减速器。如你所说,你需要一个简单的自定义分区来正确地路由地图相位输出。