Question

如何使用hadoop mapreduce程序在单个文件中消除重复值

在输出中我需要唯一值

例如：在文件中<登记/>
第1行：嗨这是Ashok

第2行：hadoop框架的基础知识

第3行：嗨这是Ashok

从这个例子中，只需要输出唯一值，即它应该打印第1行和第3行......如何进行....

Answer 1

这是没有计数的字数。

执行此操作的典型方法是按整行分组，然后仅输出减速器中的键。这是一些伪代码：

map(key, value):
   emit (value, null)

reducer(key, iterator):
   emit (key, null)

请注意，我只是在这里输出值作为映射器中的键。该值可以为null（即NullWriteable，或者您可以只使用整数或其他。）。

在减速机中，我不在乎看到了多少，我只输出了密钥。

如何使用hadoop mapreduce程序消除单个文件中的重复值

1 个答案: