仅限地图的工作 - 订单

时间:2014-03-08 09:41:35

标签: java csv hadoop mapreduce

我有一个csv文件。假设它有2个拆分,即一个块将由第一个map()任务处理,另一个块由第二个map()任务处理。

在给定的csv中,我将{0}替换为false,将“1”替换为true。所以我将为此编写一个仅限地图的工作。作业完成后,我会得到输入文件的相同顺序吗?由于shufflesort在Map作业之后完成。

有没有办法得到输入文件的相同顺序?

1 个答案:

答案 0 :(得分:3)

你可以job.setNumReduceTasks(0);。这样,shufflesort就不会发生。

但是,将有与map任务一样多的输出文件(在本例中为2)。如果你连接它们,你会得到你想要的。这可能无关紧要,因为在大多数情况下,Hadoop允许您在任何文件所在的位置提供文件夹。