Hadoop作业公式,将ArrayList <string>传递给Mapper()

时间:2017-09-29 12:18:54

标签: java hadoop mapper

尝试制定与普通字数统计示例不同的Hadoop作业。我的输入数据格式为:

makePush,1964
makePush,459
makePush,357
opAdd,2151
opAdd,257
opStop,135

我想将这些内容传递给Mapper(),然后传递给Reducer()函数,但我在规范方面遇到了问题,即

Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

那么,例如,opAdd将是KEYIN257将是VALUEIN。随后,所有opAdd的总和将为KEYOUT,并且相关数字的总和将为VALUEOUT,这是否有意义呢?

但是,如何以编程方式实现此功能?在我看来,它与理论上的字数例子没那么不同。

1 个答案:

答案 0 :(得分:2)

  例如,opAdd是KEYIN,257是VALUEIN

不,Key将是LongWritable,它是文件中的偏移标记,用于指定当前地图任务读取文件的位置。

值为文本,这将是<div class="sick"> </div> <div class="explain"> <h1>Site Here</h1> <h2>Concept</h2> </div>的整行,您可以opAdd,257分隔数据