如何使用hadoop mapreduce程序在单个文件中消除重复值
在输出中我需要唯一值
例如:在文件中<登记/>
第1行:嗨这是Ashok
第2行:hadoop框架的基础知识
第3行:嗨这是Ashok
从这个例子中,只需要输出唯一值,即它应该打印第1行和第3行......如何进行....
答案 0 :(得分:8)
这是没有计数的字数。
执行此操作的典型方法是按整行分组,然后仅输出减速器中的键。这是一些伪代码:
map(key, value):
emit (value, null)
reducer(key, iterator):
emit (key, null)
请注意,我只是在这里输出值作为映射器中的键。该值可以为null(即NullWriteable
,或者您可以只使用整数或其他。)。
在减速机中,我不在乎看到了多少,我只输出了密钥。