应用错误收集

如何将级联作业的输出合并到特定大小

时间：2017-08-11 13:20:50

标签： hadoop cascading

我有一个级联作业，输出30个25MB文件。无论如何我可以将它减少到每个256 MB的文件。我试过-Dmapreduce.job.reduces = 1。它似乎没有贬低。任何指导都会有所帮助

1 个答案:

答案 0 :(得分：1)

总记忆= 30 * 25 = 750，

必需的输出文件= 750/256 = 3，

您可以在作业中再添加一个map-reduce任务。在最终输出管道中放置group by或unique或任何可以设置reducers数量并将reducer数量设置为3或4的操作，这样您就可以得到数字输出文件的数量为reducer的数量。