如何使用hadoop mapreduce程序消除单个文件中的重复值

时间:2012-10-20 04:53:48

标签: map hadoop mapreduce


如何使用hadoop mapreduce程序在单个文件中消除重复值

在输出中我需要唯一值

例如:在文件中<登记/>
第1行:嗨这是Ashok

第2行:hadoop框架的基础知识

第3行:嗨这是Ashok

从这个例子中,只需要输出唯一值,即它应该打印第1行和第3行......如何进行....

1 个答案:

答案 0 :(得分:8)

这是没有计数的字数。

执行此操作的典型方法是按整行分组,然后仅输出减速器中的键。这是一些伪代码:

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

请注意,我只是在这里输出值作为映射器中的键。该值可以为null(即NullWriteable,或者您可以只使用整数或其他。)。

在减速机中,我不在乎看到了多少,我只输出了密钥。