Hadoop:在0.20.203链接工作

时间:2012-02-29 20:34:13

标签: java hadoop jobs chaining

我目前有一项任务,我需要在Hadoop中链接一些工作。 我现在所做的就是我有两份工作。我的第一份工作有地图功能,合成器和减速器。好吧,我还需要一个还原阶段,所以我用一个简单的map任务创建了第二个作业,它将前一个reducer的输出传递给最终的reducer。 我发现这有点“愚蠢”,因为必须有一种简单的链接方式。此外,我认为I / O会以这种方式减少。

我使用的是0.20.203版本,我只使用JobConf找到了已被弃用的ChainMapper和ChainReducer示例。 我找到了这些: http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainMapper.html http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainReducer.html 这似乎与Job类一起使用,而不是在203中弃用的JobConf,但是在203中没有包含这些类的任何包。

1 个答案:

答案 0 :(得分:0)

您可以考虑使用oozie。创建工作流程会容易得多。