尝试制定与普通字数统计示例不同的Hadoop作业。我的输入数据格式为:
makePush,1964
makePush,459
makePush,357
opAdd,2151
opAdd,257
opStop,135
我想将这些内容传递给Mapper()
,然后传递给Reducer()
函数,但我在规范方面遇到了问题,即
Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>
那么,例如,opAdd
将是KEYIN
,257
将是VALUEIN
。随后,所有opAdd
的总和将为KEYOUT
,并且相关数字的总和将为VALUEOUT
,这是否有意义呢?
但是,如何以编程方式实现此功能?在我看来,它与理论上的字数例子没那么不同。
答案 0 :(得分:2)
例如,opAdd是KEYIN,257是VALUEIN
不,Key将是LongWritable,它是文件中的偏移标记,用于指定当前地图任务读取文件的位置。
值为文本,这将是<div class="sick">
</div>
<div class="explain">
<h1>Site Here</h1>
<h2>Concept</h2>
</div>
的整行,您可以opAdd,257
分隔数据