我基本了解Hadoop如何将数据从Mapper订购到Reducer。
我将以下数据写入context
Mapper。以下数据是关键值对
abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590
键abc, cde, dec
连续n次,具有相同或不同的值。
Reducer使用值组读取键。即
abc {1234, 2348, ...} and so on with other keys.
问题:是否有可能以相同的Mapper输出顺序读取数据到reducer,而不是带有值的唯一键组?
答案 0 :(得分:0)
如果您需要根据标题处理数据,那么我认为您可以使用以下方法: -
Mapper
: -
剪切标题并将其作为您的密钥,将剩余数据作为您的值。 现在,该特定标头的所有数据都将移至减速器。
Reducer
: -
我们将在reducer中使用这些值而不进行分组。
abc 1234
cde 2394
dec 8273
abc 2348
cde 8780
dec 6590
然后我们将能够单独处理数据。