标签: hadoop mapreduce hdfs hadoop-partitioning
我的地图缩减工作如下所示:
我将前两个块映射到键1,接下来的两个块将映射到键2,依此类推,如图所示:
现在,根据理论,我想将每个密钥发送到减速器。
但我的问题是: 如何在现实中选择适当数量的地图制作者/缩减者?
看起来我需要#mappers = #num of hdfs blocks, #reducers的数量将是#mappers的一半。 这是一个好方法吗? 这种情况的正确选择是什么?