Question

尝试制定与普通字数统计示例不同的Hadoop作业。我的输入数据格式为：

makePush,1964
makePush,459
makePush,357
opAdd,2151
opAdd,257
opStop,135

我想将这些内容传递给Mapper()，然后传递给Reducer()函数，但我在规范方面遇到了问题，即

Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

那么，例如，opAdd将是KEYIN，257将是VALUEIN。随后，所有opAdd的总和将为KEYOUT，并且相关数字的总和将为VALUEOUT，这是否有意义呢？

但是，如何以编程方式实现此功能？在我看来，它与理论上的字数例子没那么不同。

Answer 1

例如，opAdd是KEYIN，257是VALUEIN

不，Key将是LongWritable，它是文件中的偏移标记，用于指定当前地图任务读取文件的位置。

值为文本，这将是<div class="sick"> </div> <div class="explain"> <h1>Site Here</h1> <h2>Concept</h2> </div>的整行，您可以opAdd,257分隔数据