我有一个csv
文件。假设它有2个拆分,即一个块将由第一个map()
任务处理,另一个块由第二个map()
任务处理。
在给定的csv中,我将{0}替换为false
,将“1”替换为true
。所以我将为此编写一个仅限地图的工作。作业完成后,我会得到输入文件的相同顺序吗?由于shuffle
和sort
在Map作业之后完成。
有没有办法得到输入文件的相同顺序?
答案 0 :(得分:3)
你可以job.setNumReduceTasks(0);
。这样,shuffle
和sort
就不会发生。
但是,将有与map任务一样多的输出文件(在本例中为2)。如果你连接它们,你会得到你想要的。这可能无关紧要,因为在大多数情况下,Hadoop允许您在任何文件所在的位置提供文件夹。