我已成功在hadoop中执行了单词计数。现在我想用文本文件或pdf重复相同的过程。我想算一章明智的话。 我该怎么办?
答案 0 :(得分:0)
在MapReduce中,关键是你如何构建你的密钥。
在wordcount中,地图阶段的每个单词都计为1,在缩减器中,你得到整个文件中出现的单词的集合。
Wordcount示例:
Map Phase:
<Key , val>
in, 1
at, 1
in, 1
Reducer Phase:
in, 2
at, 1
如果要分成另一个级别(章节),您只需构建复合键。
Wordcount w章节示例:
Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1
次要排序是实现相同但更复杂的更好和更清洁的方式。 hadoop map reduce secondary sorting