运行mapreduce程序以获取单词输入列表

时间:2015-01-07 16:14:51

标签: hadoop mapreduce

我有 words.txt ,这是一个包含大量独特单词的文件,如下所示

book
apple
football
camera
playing
mac
Google
samsung
..

我设计了一个地图缩减程序来记录和计算在一个大型corpus.txt文件中每行中出现的单词“Google”的单词数量。

例如,如果我们假设下面的语料库:

.......
........
Google receives more than 345 million
Google handled 345 million
........
.......

该计划的输出是:

[Google,receives]     1
[Google,more]         1
[Google,than]         1
[Google,million]      2
[Google,345]          2
[Google,handled]      1

该程序适用于单个单词。但问题是如何在words.txt文件中运行整个单词列表的程序?

我的意思是,我应该为列表中的每个单词运行mapreduce作业,还是有其他方法可以做到这一点?

0 个答案:

没有答案