如何从map-reduce程序中获取唯一键和值?

时间:2016-04-06 00:17:17

标签: hadoop mapreduce

从reducer,我得到以下输出。

key     value
1       apple
2       apple
3       apple
4       orange
5       orange  

但是,我需要以下输出:

key     value
1       apple
4       orange

实现这个的正确方法是什么?

1 个答案:

答案 0 :(得分:1)

enter image description here

此图像显示单词计数流程。

您可以通过以下方式实施:

1. 猪脚本(内部生成地图减少作业)对于非Java开发人员 你需要安装猪。

您需要在HDFS中输入您的输入文件。

然后在grunt shell或Hue中使用以下代码(无论你有什么选项)

lines = LOAD 'path of input file' AS (line:chararray);

words = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) as word;

grouped = GROUP words BY word;

wordcount = FOREACH grouped GENERATE group, COUNT(words);

DUMP wordcount;
  1. 映射减少编码适用于Java开发人员 您必须使用Map Reduce Api with java
  2. 参考本教程。

    https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html