我有一个级联作业,输出30个25MB文件。无论如何我可以将它减少到每个256 MB的文件。我试过-Dmapreduce.job.reduces = 1。它似乎没有贬低。任何指导都会有所帮助
答案 0 :(得分:1)
总记忆= 30 * 25 = 750,
必需的输出文件= 750/256 = 3,
您可以在作业中再添加一个map-reduce任务。在最终输出管道中放置group by或unique或任何可以设置reducers数量并将reducer数量设置为3或4的操作,这样您就可以得到数字输出文件的数量为reducer的数量。