如何将级联作业的输出合并到特定大小

时间:2017-08-11 13:20:50

标签: hadoop cascading

我有一个级联作业,输出30个25MB文件。无论如何我可以将它减少到每个256 MB的文件。我试过-Dmapreduce.job.reduces = 1。它似乎没有贬低。任何指导都会有所帮助

1 个答案:

答案 0 :(得分:1)

  

总记忆= 30 * 25 = 750,

     

必需的输出文件= 750/256 = 3,

您可以在作业中再添加一个map-reduce任务。在最终输出管道中放置group by或unique或任何可以设置reducers数量并将reducer数量设置为3或4的操作,这样您就可以得到数字输出文件的数量为reducer的数量。