在hadoop中,使用n映射器和n reduce,或n映射器和1减少之间的区别是什么。 在使用1减少的情况下,减少阶段是由哪台计算机(映射器),如果我有3台计算机
答案 0 :(得分:0)
映射器的数量由正在处理的数据量控制。减速器由开发人员或不同的系统参数控制。
要覆盖减速器的数量: set mapreduce.job.reduces =#;
或者如果它是Hive作业,并且您想要控制每个reducer必须执行的工作量,那么您可以调整某些参数,例如: hive.exec.reducers.bytes.per.reducer。
你仍然可以使用mapreduce.job.reduces覆盖它只是使用每个reducer的字节数允许你控制每个reducer进程的数量。
关于控制Reducer运行的位置,除了使用Node Labels之外,你实际上无法控制它。这意味着控制作业中的所有任务不仅仅是减速器。