我有 words.txt ,这是一个包含大量独特单词的文件,如下所示
book
apple
football
camera
playing
mac
Google
samsung
..
我设计了一个地图缩减程序来记录和计算在一个大型corpus.txt文件中每行中出现的单词“Google”的单词数量。
例如,如果我们假设下面的语料库:
.......
........
Google receives more than 345 million
Google handled 345 million
........
.......
该计划的输出是:
[Google,receives] 1
[Google,more] 1
[Google,than] 1
[Google,million] 2
[Google,345] 2
[Google,handled] 1
该程序适用于单个单词。但问题是如何在words.txt文件中运行整个单词列表的程序?
我的意思是,我应该为列表中的每个单词运行mapreduce作业,还是有其他方法可以做到这一点?