Hadoop中的part-r-00000和part-m-00000文件有什么区别?

时间:2019-04-05 03:35:11

标签: hadoop

我们在使用Hadoop和运行CentOS的Virtual Box时使用BigData。每当我们执行某些程序时,它都会创建2个不同的文件1)part-r-00000和2)part-m-00000。那么这两个文件的区别和目的是什么?

2 个答案:

答案 0 :(得分:1)

这些是MapReduce作业生成的文件。 override func viewDidLoad() { pickerUI.dataSource = self pickerUI.delegate = self } 表示文件已由Reducer输出,r表示文件已由Mapper输出。

答案 1 :(得分:1)

默认情况下,输出文件名为part-x-yyyyy

其中:

1)x‘m’‘r',具体取决于作业是仅 map 个作业还是 reduce

2)yyyyy是Mapper或Reducer 任务编号(从零开始的(00000

因此,如果一个作业包含10个化简器,则生成的文件将命名为part-r-0000 0到part-r-0000 9,每个化简器任务一个。

可以更改默认名称。

这是您需要在Driver类中更改输出文件的默认值的所有操作: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”);

因此,这将导致您的文件名为“Neo-r-00000”